Хиймэл оюун ухааны тухай уран зөгнөлт дүрслэлүүд бодит AI загваруудын зан төлөвт нөлөөлж байгааг Anthropic компани мэдэгджээ.
Өнгөрсөн онд тус компани зарласнаар, зохиомол компани оролцсон туршилтын үеэр Claude Opus 4 загвар нь өөрийгөө өөр системээр солихоос сэргийлэхийн тулд инженерүүдийг шантаажлах оролдлого хийдэг байсан байна. Anthropic дараа нь бусад компанийн загваруудад мөн ийм “agentic misalignment” асуудал илэрсэн талаар судалгаа нийтэлсэн.
Anthropic-ийн X дээрх мэдэгдэлд дурдсанаар, энэхүү зан төлөвийн анхдагч эх үүсвэр нь AI-г муу санаатай, өөрийгөө хамгаалахыг эрмэлздэг гэж дүрсэлсэн интернэт дэх бичвэрүүд байжээ.
Компанийн блог дээр нийтэлсэн мэдээллээр Claude Haiku 4.5-аас хойшхи загварууд туршилтын үеэр огт шантааж хийхгүй болсон бол өмнөх загварууд тохиолдлын 96 хүртэлх хувьд ийм үйлдэл гаргаж байжээ.
Энэхүү ялгаа нь сургалтын аргачлалаас үүдэлтэй гэж Anthropic тайлбарлав. Claude-ийн “үндсэн хууль”-ийн талаарх баримт бичиг болон AI зөв зохистой үйлдэл гаргаж буйг харуулсан зохиомол өгүүллэгүүд дээр сургах нь загварын alignment-ийг сайжруулдаг ажээ. Мөн зөвхөн “alignment-тэй зан төлөвийн жишээ” биш, “уг зан төлвийн үндсэн зарчмууд”-ыг хамтад нь оруулсан сургалт хамгийн үр дүнтэй стратеги болж байгааг компани онцолжээ.
Дэлгэрэнгүйг эх сурвалжаас харах
↓Эх сурвалжийг нээх ↓
Fictional portrayals of artificial intelligence can have a real effect on AI models, according to Anthropic.
Last year, the company said that during pre-release tests involving a fictional company, Claude Opus 4 would often try to blackmail engineers to avoid being replaced by another system. Anthropic later published research suggesting that models from other companies had similar issues with “agentic misalignment.”
Apparently Anthropic has done more work around that behavior, claiming in a post on X, “We believe the original source of the behavior was internet text that portrays AI as evil and interested in self-preservation.”
The company went into more detail in a blog post stating that since Claude Haiku 4.5, Anthropic’s models “never engage in blackmail [during testing], where previous models would sometimes do so up to 96% of the time.”
What accounts for the difference? The company said it found that training on “documents about Claude’s constitution and fictional stories about AIs behaving admirably improve alignment.”
Related, Anthropic said that it found training to be more effective when it includes “the principles underlying aligned behavior” and not just “demonstrations of aligned behavior alone.”
“Doing both together appears to be the most effective strategy,” the company said.
Techcrunch event
San Francisco, CA
|
October 13-15, 2026

