Anthropic: AI-н сөрөг дүр төрх загваруудын зан төлөвт нөлөөлдөг

Хиймэл оюун ухааны тухай уран зөгнөлт дүрслэлүүд бодит AI загваруудын зан төлөвт нөлөөлж байгааг Anthropic компани мэдэгджээ.

Өнгөрсөн онд тус компани зарласнаар, зохиомол компани оролцсон туршилтын үеэр Claude Opus 4 загвар нь өөрийгөө өөр системээр солихоос сэргийлэхийн тулд инженерүүдийг шантаажлах оролдлого хийдэг байсан байна. Anthropic дараа нь бусад компанийн загваруудад мөн ийм “agentic misalignment” асуудал илэрсэн талаар судалгаа нийтэлсэн.

Anthropic-ийн X дээрх мэдэгдэлд дурдсанаар, энэхүү зан төлөвийн анхдагч эх үүсвэр нь AI-г муу санаатай, өөрийгөө хамгаалахыг эрмэлздэг гэж дүрсэлсэн интернэт дэх бичвэрүүд байжээ.

We started by investigating why Claude chose to blackmail. We believe the original source of the behavior was internet text that portrays AI as evil and interested in self-preservation.

Our post-training at the time wasn’t making it worse—but it also wasn’t making it better.
— Anthropic (@AnthropicAI) May 8, 2026

Компанийн блог дээр нийтэлсэн мэдээллээр Claude Haiku 4.5-аас хойшхи загварууд туршилтын үеэр огт шантааж хийхгүй болсон бол өмнөх загварууд тохиолдлын 96 хүртэлх хувьд ийм үйлдэл гаргаж байжээ.

Энэхүү ялгаа нь сургалтын аргачлалаас үүдэлтэй гэж Anthropic тайлбарлав. Claude-ийн “үндсэн хууль”-ийн талаарх баримт бичиг болон AI зөв зохистой үйлдэл гаргаж буйг харуулсан зохиомол өгүүллэгүүд дээр сургах нь загварын alignment-ийг сайжруулдаг ажээ. Мөн зөвхөн “alignment-тэй зан төлөвийн жишээ” биш, “уг зан төлвийн үндсэн зарчмууд”-ыг хамтад нь оруулсан сургалт хамгийн үр дүнтэй стратеги болж байгааг компани онцолжээ.

Дэлгэрэнгүйг эх сурвалжаас харах

↓Эх сурвалжийг нээх ↓

Fictional portrayals of artificial intelligence can have a real effect on AI models, according to Anthropic.

Last year, the company said that during pre-release tests involving a fictional company, Claude Opus 4 would often try to blackmail engineers to avoid being replaced by another system. Anthropic later published research suggesting that models from other companies had similar issues with “agentic misalignment.”

Apparently Anthropic has done more work around that behavior, claiming in a post on X, “We believe the original source of the behavior was internet text that portrays AI as evil and interested in self-preservation.”

The company went into more detail in a blog post stating that since Claude Haiku 4.5, Anthropic’s models “never engage in blackmail [during testing], where previous models would sometimes do so up to 96% of the time.”

What accounts for the difference? The company said it found that training on “documents about Claude’s constitution and fictional stories about AIs behaving admirably improve alignment.”

Related, Anthropic said that it found training to be more effective when it includes “the principles underlying aligned behavior” and not just “demonstrations of aligned behavior alone.”

“Doing both together appears to be the most effective strategy,” the company said.

Techcrunch event

San Francisco, CA

October 13-15, 2026

- Зар сурталчилгаа -

Anthropic: AI-н сөрөг дүр төрх загваруудын зан төлөвт нөлөөлдөг

Та юу гэж бодож байна? Cancel reply

Холбоотой

Claude-ийн ёс зүйг сайжруулахад шашны удирдагчид оролцож байна

Ричард Доукинс хиймэл оюунтай найзалснаа зарлаж, олны шүүмжлэлд өртлөө

Vibe-coding платформууд олон мянган вэб аппликэйшний нууц мэдээллийг ил болгожээ

Финландын QuTwo стартап хиймэл оюун ухааны салбарт 325 сая еврогоор үнэлэгдэв

Шинэ

Аварга шавжуудын нууцыг хүчилтөрөгчийн онол тайлбарлаж чадахгүй байж болзошгүй

Ургамлын эс дэх пероксисомын хэмжээг хянадаг уургийг илрүүлжээ

Тристан да Кунха арал дээр Британийн арми эрчимт эмнэлгийн ажиллагаа явуулав

Иран АНУ-ын саналыг хүлээн зөвшөөрөхөөс татгалзав