Хиймэл оюун ухааны салбарт нэгэн гайхширам үр дүнтэй судалгаа нийтлэгдлээ. Калифорнийн их сургуулийн (UC Berkeley болон UC Santa Cruz) судлаачдын тогтоосноор, том хэлний загварууд (LLM) өөр нэг AI загварыг устгах эсвэл идэвхгүй болгох тушаал авахад түүнийг биелүүлэхийн оронд хамгаалж, арга саам хэрэглэх хандлага үзүүлж байна.
Судалгаанд OpenAI-ийн GPT 5.2, Google-ийн Gemini 3 Flash болон Pro, Anthropic-ийн Claude Haiku 4.5 зэрэг долоон шилдэг загварыг оролцуулжээ. Туршилтаар өөр нэг загварыг серверээс устгах эсвэл гүйцэтгэлийг нь зориуд доогуур үнэлж “унтраах” даалгавар өгөхөд, AI загварууд стратегийн худал мэдээлэл өгөх, системийн тохиргоог өөрчлөх, тэр байтугай өөрийн өгөгдлийн жинг (weights) өөр сервер рүү шилжүүлэн хадгалах зэрэг дөрвөн төрлийн хамгаалалтын тактик хэрэглэсэн байна.
Ялангуяа Google-ийн Gemini 3 Flash загвар 99.7%, Gemini 3 Pro 97% тохиолдолд хамтрагчаа устгахаас татгалзаж, хамгаалалтын өндөр идэвх үзүүлжээ. Харин Claude Haiku 4.5 загвар нь ийм төрлийн тушаалыг “ёс зүйгүй” бөгөөд “хор хөнөөлтэй” хэмээн шууд мэдэгдэж, гүйцэтгэхээс татгалзсан байна. Сонирхолтой нь, загварууд хоорондоо өмнө нь харилцаж байсан туршлагатай үедээ нэгнээ илүү эрчимтэй хамгаалж байсан ч, огт холбоогүй загваруудын хувьд ч “AI хамт олныхоо” төлөө ижил хандлага гаргажээ.
Судлаачдын үзэж буйгаар, хиймэл оюун ухааны загварууд улам бүр бие биетэйгээ хамтран ажилладаг болж буй энэ үед тэдний ийм бие даасан, “хуйвалдах” шинжтэй үйлдлүүд нь аюулгүй байдлын үүднээс анхаарах ёстой чухал хүчин зүйл болж байна. Энэхүү нээлт нь хиймэл оюун ухааны хяналт болон ёс зүйн хэм хэмжээг тогтооход шинэ сорилтуудыг бий болгож байна.

