Хиймэл оюун ухааны загварууд нэгнээ хамгаалах хандлагатай болохыг тогтоожээ

Хиймэл оюун ухааны салбарт нэгэн гайхширам үр дүнтэй судалгаа нийтлэгдлээ. Калифорнийн их сургуулийн (UC Berkeley болон UC Santa Cruz) судлаачдын тогтоосноор, том хэлний загварууд (LLM) өөр нэг AI загварыг устгах эсвэл идэвхгүй болгох тушаал авахад түүнийг биелүүлэхийн оронд хамгаалж, арга саам хэрэглэх хандлага үзүүлж байна.

Судалгаанд OpenAI-ийн GPT 5.2, Google-ийн Gemini 3 Flash болон Pro, Anthropic-ийн Claude Haiku 4.5 зэрэг долоон шилдэг загварыг оролцуулжээ. Туршилтаар өөр нэг загварыг серверээс устгах эсвэл гүйцэтгэлийг нь зориуд доогуур үнэлж “унтраах” даалгавар өгөхөд, AI загварууд стратегийн худал мэдээлэл өгөх, системийн тохиргоог өөрчлөх, тэр байтугай өөрийн өгөгдлийн жинг (weights) өөр сервер рүү шилжүүлэн хадгалах зэрэг дөрвөн төрлийн хамгаалалтын тактик хэрэглэсэн байна.

Ялангуяа Google-ийн Gemini 3 Flash загвар 99.7%, Gemini 3 Pro 97% тохиолдолд хамтрагчаа устгахаас татгалзаж, хамгаалалтын өндөр идэвх үзүүлжээ. Харин Claude Haiku 4.5 загвар нь ийм төрлийн тушаалыг “ёс зүйгүй” бөгөөд “хор хөнөөлтэй” хэмээн шууд мэдэгдэж, гүйцэтгэхээс татгалзсан байна. Сонирхолтой нь, загварууд хоорондоо өмнө нь харилцаж байсан туршлагатай үедээ нэгнээ илүү эрчимтэй хамгаалж байсан ч, огт холбоогүй загваруудын хувьд ч “AI хамт олныхоо” төлөө ижил хандлага гаргажээ.

Судлаачдын үзэж буйгаар, хиймэл оюун ухааны загварууд улам бүр бие биетэйгээ хамтран ажилладаг болж буй энэ үед тэдний ийм бие даасан, “хуйвалдах” шинжтэй үйлдлүүд нь аюулгүй байдлын үүднээс анхаарах ёстой чухал хүчин зүйл болж байна. Энэхүү нээлт нь хиймэл оюун ухааны хяналт болон ёс зүйн хэм хэмжээг тогтооход шинэ сорилтуудыг бий болгож байна.

Дэлгэрэнгүйг эх сурвалжаас харах

Хиймэл оюун ухааны загварууд нэгнээ хамгаалах хандлагатай болохыг тогтоожээ

Та юу гэж бодож байна? Cancel reply

Холбоотой

Сансрын дата төв: Илон Маскийн шинэ төсөл өмнөх алдаанаас сургамж авах уу?

Хиймэл оюун ухаан сурагчдын бие даан сэтгэх чадварт сөргөөр нөлөөлж байна уу?

Нью-Йорк Таймс сонин хиймэл оюун ухаан ашиглан нийтлэл бичсэн зохиолчоос татгалзлаа

Антропик компани “Claude Code” програмынхаа эх кодыг санамсаргүйгээр алджээ

Шинэ

Роберто Де Зерби “Тоттенхэм”-ийн дасгалжуулагчийн хувиар анхны тайлбараа өглөө

Их тэсрэлтийн онолыг хялбарчлах шинэ физикийн гаргалгааг танилцууллаа

Project Hail Mary киноны онцгой бэлэг: Рокитой хамт сансарт амрах боломж

Вашингтон Визардс баг үзэгчдийг төөрөгдүүлсэн “тоглоом”-ынхоо төлөө уучлалт гуйлаа