Стэнфордын их сургуулийн эрдэмтэд хиймэл оюун ухааны сүүлийн үеийн загварууд нь бодит зураг байхгүй байсан ч эмнэлгийн рентген зураг дээр нарийвчилсан дүрслэл, эмгэг судлалын талаарх дэлгэрэнгүй тайлбар хийж чаддагийг тогтоожээ. Энэхүү үзэгдлийг “mirage reasoning” буюу “хуурмаг логик” хэмээн нэрлэсэн байна.
Эдгээр хиймэл оюун ухааны загварууд нь өгөгдсөн бичвэр мэдээлэл болон интернэтээс авсан ерөнхий статистик, давтамжийн өгөгдлийг ашиглан бодит байдалтай төстэй боловч үндэслэлгүй дүгнэлт гаргадаг байна. Энэ нь ялангуяа эмнэлгийн салбарт ноцтой эрсдэл учруулж болзошгүй үзэгдэл юм.
Судалгаанд OpenAI-ийн GPT-5, Google-ийн Gemini 3 Pro, Anthropic-ийн Claude Opus 4.5 зэрэг тэргүүлэх загваруудыг туршсан бөгөөд тэд бүгд зураггүй байсан ч дүрслэлийн нарийвчилсан мэдээллийг итгэл төгсөөр өгсөн байна. Нэгэн тохиолдолд тухайн загвар нь цээжний рентген зурагтай холбоотой асуултад зураггүйгээр хариулахдаа хамгийн өндөр үр дүнг үзүүлсэн нь хачирхалтай байв.
Эрдэмтэд хиймэл оюун ухааны загваруудыг үнэн зөв үнэлэхийн тулд одоогийн туршилтын аргуудыг шинэчлэх шаардлагатайг онцолжээ. Тэд B-Clean хэмээх шинэ аргыг санал болгож байгаа бөгөөд энэ нь бодит зураггүйгээр хариулж болох болон өмнөх мэдлэгт тулгуурласан асуултуудыг шүүн зайлуулж, зөвхөн визуал мэдээлэлд тулгуурласан үнэлгээг хийх боломжийг олгох юм.
Энэхүү нээлт нь хиймэл оюун ухааныг эмнэлгийн салбарт, ялангуяа рентген зураг оношлоход ашиглах эрсдэлийг дахин авч үзэхэд хүргэж байна. Хиймэл оюун ухаан нь бодит өгөгдөлгүйгээр итгэл төгсөөр зохиомол дүгнэлт гаргаж чаддаг тул түүнийг ашиглахдаа маш болгоомжтой байж, аюулгүй байдлыг хангах арга хэмжээг сайтар зохион байгуулах шаардлагатайг мэргэжилтнүүд зөвлөж байна.

