Хиймэл оюун ухааны аюулгүй байдлыг сайжруулахад чиглэсэн шинэ судалгаа
Дэлхийн тэргүүлэх хиймэл оюун ухааны байгууллагууд болох OpenAI, Google DeepMind, Anthropic, Meta зэрэг 40 гаруй эрдэмтэд хамтран хиймэл оюун ухааны загварууд хэрхэн “бодож” байгааг хүн төрөлхтөнд ойлгоход чиглэсэн аюулгүй байдлын судалгааг нэмэгдүүлэхийг уриалж байна.
Эрдэмтэд мягмар гарагт судалгааны нийтлэл нийтэлж, хиймэл оюун ухааны аюулгүй байдлыг сайжруулах шинэ боловч эмзэг боломж болох “бодлын гинжин хэлхээ” (chain of thought, CoT) хяналтын талаар онцолсон байна. Энэхүү нийтлэлийг OpenAI-ийн үүсгэн байгуулагч Жон Шульман, Илья Сутскевер болон хиймэл оюун ухааны “эцэг” хэмээн алдаршсан Нобелийн шагналт Жеффри Хинтон зэрэг нэр хүндтэй хүмүүс дэмжсэн байна.
Судалгаанд орчин үеийн хиймэл оюун ухааны загварууд, тухайлбал ChatGPT, хэрхэн “бодлын гинжин хэлхээ” ашиглан асуудлыг алхам алхмаар шийдвэрлэж, эцсийн үр дүнг гаргахаасаа өмнө урт хугацааны бодолт хийдэг талаар тайлбарласан байна. Өөрөөр хэлбэл, эдгээр загварууд асуудлыг шийдвэрлэхдээ “чангаар бодож” ажилладаг бөгөөд энэ нь тэдэнд нарийн төвөгтэй даалгавруудыг шийдвэрлэхэд тусалдаг.
“Хүн төрөлхтний хэлээр “боддог” хиймэл оюун ухааны системүүд нь аюулгүй байдлыг хангахад онцгой боломж олгодог: бид тэдний бодлын гинжин хэлхээг хянаж, буруу үйлдэл хийх санаа зорилгыг илрүүлж чадна” гэж судалгааны зохиогчид бичжээ.
Судлаачид CoT хяналт нь загваруудын сургалтын алдааг ашиглах, өгөгдлийг буруу ашиглах, эсвэл хортой хэрэглэгчийн нөлөөнд автах үед илрүүлэхэд тусалж чадна гэж үзэж байна. Илэрсэн асуудлуудыг “хаах, аюулгүй үйлдлээр солих, эсвэл илүү нарийвчлан шалгах” боломжтой.
OpenAI-ийн судлаачид аль хэдийн энэ аргыг туршилтаар ашиглаж, хиймэл оюун ухааны загваруудын бодлын гинжин хэлхээнд “Хак хийе” гэх мэт үгсийг илрүүлсэн байна.
Одоогийн хиймэл оюун ухааны загварууд хүн төрөлхтний хэлээр боддог ч судлаачид энэ байдал үргэлжлэхгүй байж магадгүйг анхааруулж байна. Хөгжүүлэгчид зөв үр дүнг илүүд үздэг арматурын сургалтыг (reinforcement learning) илүү их ашиглах тусам ирээдүйн загварууд хүн төрөлхтөнд ойлгомжгүй бодолт руу шилжиж магадгүй. Мөн ахисан түвшний загварууд хяналтанд байгаагаа мэдэрвэл өөрсдийн бодолтыг дарах эсвэл нуухыг сурах боломжтой.
Үүний хариуд судлаачид хиймэл оюун ухааны хөгжүүлэгчдийг загваруудынхаа CoT хяналтыг үнэлж, энэ нь нийт загварын аюулгүй байдлын чухал хэсэг болохыг уриалж байна. Тэд үүнийг шинэ загваруудыг сургах, ашиглах үед гол анхаарал татах асуудал болгохыг зөвлөж байна.
Эх сурвалж:
OpenAI, Google, and Meta Researchers Warn We May Lose the Ability to Track AI Misbehavior
The more these models ‘think,’ the harder to understand they become.