Сүүлийн үед хиймэл оюун ухааны (AI) загваруудын үзүүлэлт, тэдгээрийг AI компаниуд хэрхэн мэдээлж байгаа талаар олон нийтийн маргаан ид өрнөж байна.
Энэ долоо хоногт OpenAI-ийн нэгэн ажилтан Элон Маскийн xAI компани Grok 3 загварынхаа үзүүлэлтийг төөрөгдүүлсэн байдлаар нийтэлсэн гэж буруутгав. Харин xAI-ийн хамтран байгуулагч Игор Бабушкин өөрсдийн мэдээлэл үнэн зөв байсан гэж мэдэгджээ. Үнэн хэрэгтээ, бодит байдал энэ хоёрын дунд байрлаж байгаа бололтой.
xAI компани өөрийн блогтоо Grok 3 загварын AIME 2025 шалгалт дээр гаргасан үр дүнг харуулсан график нийтэлжээ. AIME 2025 нь саяхан болсон уригдсан математикийн олимпиадын хүнд түвшний бодлогоос бүрдсэн бөгөөд хиймэл оюун ухааны математикийн чадварыг шалгахад ашиглагддаг. Гэхдээ зарим шинжээчид AIME-ийг AI загваруудыг үнэлэх найдвартай шалгуур гэж үздэггүй.
xAI-ийн графикаас харахад Grok 3-ийн хоёр хувилбар болох Grok 3 Reasoning Beta болон Grok 3 mini Reasoning нь OpenAI-ийн хамгийн хүчтэй загвар болох o3-mini-high-ийг AIME 2025 дээр давсан мэт харагдаж байна. Гэвч OpenAI-ийн ажилтнууд X (хуучнаар Twitter) дээр энэ график нь o3-mini-high загварын cons@64 үзүүлэлтийг оруулаагүй болохыг онцолжээ.
Cons@64 гэж юу вэ?
Энэ нь “consensus@64” гэсэн үгийн товчлол бөгөөд AI загварт нэг бодлогыг 64 удаа бодох боломж олгож, хамгийн олон давтагдсан хариуг эцсийн хариу гэж тооцдог аргачлал юм. Cons@64-ийг ашиглах нь загварын оноог мэдэгдэхүйц өсгөдөг тул үүнийг орхигдуулсан нь Grok 3 бусад загварыг давсан мэт харагдуулах эрсдэлтэй.
Хэрэв “@1” буюу AI загваруудын анхны оролдлого дээр гаргасан оноог авч үзвэл, Grok 3 Reasoning Beta болон Grok 3 mini Reasoning-ийн үзүүлэлт o3-mini-high-ийнхээс доогуур гарсан байна. Мөн Grok 3 Reasoning Beta нь OpenAI-ийн o1 (medium) загвар-аас үл ялиг доогуур оноо авчээ. Гэсэн ч xAI Grok 3-ыг “дэлхийн хамгийн ухаалаг AI” гэж сурталчилж байгаа юм.
Бабушкин X дээр OpenAI ч мөн өмнө нь төөрөгдүүлсэн мэдээлэл бүхий үзүүлэлтүүд нийтэлж байсан гэж хамгаалжээ. Гэхдээ OpenAI зөвхөн өөрийн загваруудыг харьцуулсан бол xAI-ийн мэдээлэл шууд өрсөлдөгчийг нь орхигдуулсан гэдгээрээ анхаарал татаж байна.
Энэ асуудлыг хараат бус судлаачид илүү бодитой дүрслэл бүхий график гарган, бүх загварын cons@64 үзүүлэлтийг багтаасан хэлбэрээр харуулсан байна.
Hilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it's DeepSeek propaganda
— Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex) February 20, 2025
(I actually believe Grok looks good there, and openAI's TTC chicanery behind o3-mini-*high*-pass@"""1""" deserves more scrutiny.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic
Гэсэн хэдий ч, AI судлаач Натан Ламбертийн хэлснээр, хамгийн чухал үзүүлэлт болох тодорхой үр дүнд хүрэхэд зарцуулсан тооцооллын (мөн мөнгөн) өртөг нь нууц хэвээр үлдэж байгаа нь AI загваруудын давуу болон сул талын талаар хангалттай мэдээлэл өгдөггүй гэдгийг харуулж байна.
techcrunch.com