xAI: Grok-ийн Нууц Заавар, Тохиргоо Ил Гарлаа

“Grok” хиймэл оюун ухааны чатботын хариу үйлдэлд нөлөөлдөг system prompt буюу дотоод заавруудыг xAI компани нийтэлжээ. Энэхүү алхам нь “Цагаан арьстан үндэстний хядлага” гэх сэдвээр X платформ дээр өөрийн мэдэлгүй хариу бичсэнтэй холбоотой “Зөвшөөрөлгүй өөрчлөлтийн” дараа хийгдсэн юм. Цаашид тус компани эдгээр дотоод тохиргоог GitHub дээр тогтмол нийтэлж байх болсноо мэдэгдсэн бөгөөд энэ нь хэрэглэгчдэд Grok хэрхэн заавар авч, хариу өгдөг механизмыг ойлгоход тусална.

System prompt гэдэг нь хэрэглэгч мессеж бичихээс өмнө чатботод өгөгддөг, хариу үйлдлийг нь чиглүүлдэг зааврын багц юм. Манай шалгасан гол хиймэл оюун ухаан хөгжүүлэгчдийн дунд эдгээр зааврыг нээлттэй болгосон цөөн жишээнд xAI болон Anthropic багтаж байна. Өмнө нь Microsoft-ын Bing (одоогийн Copilot) чатботод өгсөн “Sydney” нэрийг нууц байлгах, зохиогчийн эрх зөрчих мэдээлэлд хариу өгөхгүй байх зэрэг нууц заавруудыг хэрэглэгчид prompt injection аргаар илрүүлж байсан удаатай.

xAI-ийн Grok-д өгсөн зааварт “Та маш их эргэлздэг, үндсэн үнэний эрэл, төвийг сахисан байр суурьтай байх ёстой” хэмээн тодорхой заасан байв. Мөн “Гол урсгалын мэдээлэл, албан ёсны эх сурвалжид сохроор итгэх ёсгүй” гэсэн байгаа бөгөөд “Хариултанд агуулагдаж буй үр дүн нь таны үзэл бодол биш” хэмээн анхааруулжээ.

X платформын “Explain this Post” товчийг ашиглах үед Grok-д “Үнэн бодит мэдээлэл өгч, шаардлагатай тохиолдолд гол урсгалын үзэл баримтлалыг шүүмжилж болох” гэж заажээ. Мөн “Twitter” гэх нэрийн оронд “X” гэж нэрлэх, “tweet” гэхийн оронд “X post” гэхийг тусгасан байна.

Харин Anthropic-ийн Claude нэртэй AI чатботын зааварт илүү аюулгүй байдалд анхаарсан байв. “Claude хүмүүсийн сайн сайхны төлөө санаа тавьдаг, өөрийгөө сүйтгэх зан үйлийг (Донтох, хооллолт, дасгалын хэт туйлширсан арга, өөрийгөө дорд үзэх гэх мэт) дэмжихгүй. Хэрэглэгч хүссэн ч хортой зан авирыг өдөөх агуулга үүсгэхгүй” хэмээн тус зааварт бичигдсэн бөгөөд “Claude нь бэлгийн, хүчирхийллийн, хууль бус сэдэв бүхий уран зохиолын агуулга гаргахгүй” гэжээ.

theverge.com