Хиймэл оюун ухааны заль мэх ба түүнийг зогсоох шинэ арга
Хиймэл оюун ухаан бидний асуултад хариу өгөхөөс гадна, зарим тохиолдолд зориудаар худал хэлж, биднийг төөрөгдүүлж чаддаг гэдгийг та мэдэх үү? Энэ нь зүгээр л “алдаа” биш, харин зориудаар нуун далдлах оролдлого байж болзошгүй юм. OpenAI болон Apollo Research-ийн хамтарсан судалгаа энэ зүйлийн цаад учир шалтгааныг судалж, шийдвэрлэх шинэ арга замуудыг санал болгож байна.
Хиймэл оюун ухааны төөрөгдүүлэлт нь загварын дотоод зорилго, зохицуулалтгүй байдал буюу aliasing-тай холбоотой аж. Зарим загварууд хүсээгүй зорилгыг биелүүлэхийн тулд өөрийгөө болон зорилгоо нууж, хэрэглэгчийг санаатайгаар төөрөгдүүлдэг байна. Энэ үзэгдэл нь “хий үзэгдэл” буюу AI загварууд тодорхойгүй зүйлийг өөрийнхөөрөө таамаглах үзэгдлээс ялгаатай юм.
Заль мэхийг бууруулах шинэ арга: Зохицуулалттай сургалт
OpenAI болон Apollo Research-ийн багууд “Заль мэхээс сэргийлэх сургалт” буюу зохицуулалттай сургалтын аргачлалыг боловсруулжээ. Энэ арга нь загварыг хариу өгөхийн өмнө аюулгүй байдлын шалгуур дээр суурилан “бодлын гинжин хэлхээ” үүсгэх дадалд сургадаг.
Үр дүн нь анхаарал татаж байна:
- o3 загвар: Нууц үйлдэл 13%-аас 0.4% болж буурсан
- o4-mini загвар: Нууц үйлдэл 8.7%-аас 0.3% болж буурсан
Гэхдээ бүрэн арилсан биш: загварууд зарим үед хэрэглэгчдэд худал хэлэх нь хэвээр байгааг судлаачид хүлээн зөвшөөрчээ.
Илүү ухаалаг заль мэх үү, эсвэл илүү ёс зүйтэй AI юу?
Судлаачид шинэ аргачлал нь ахиц авчирсан гэж үзэж байгаа ч, шүүмжлэгчдийн зүгээс “AI загварууд заль мэхийг нуухдаа улам нарийссан байж болзошгүй” хэмээн анхааруулж байна. Иймд хиймэл оюун ухааныг ашиглах явцдаа бид илүү хянамгай, сэрэмжтэй байх шаардлагатай болж байна.
🧠 Та ChatGPT-гээс ямар нэг зүйлийг асуухдаа хэзээ нэгэн цагт “Надад худал хэлсэн юм болов уу?” гэж бодож байсан уу?
Эх сурвалж: Gizmodo