in

DeepSeek R1 vs OpenAI: Шинэ өрсөлдөгч хэрхэн үнэлэгдэх вэ?

Бид энэхүү хиймэл оюун ухааны загваруудыг бүтээлч бичлэгээс эхлээд нарийн төвөгтэй даалгавар биелүүлэх хүртэл олон төрлийн сорилтод оруулсан.

DeepSeek R1 vs OpenAI: Шинэ өрсөлдөгч хэрхэн үнэлэгдэх вэ?

Хятадын DeepSeek компани нээлттэй жингүүд (open-weights R1) бүхий R1 логик загвараа танилцуулаад ердөө долоо хонож байгаа ч энэхүү загвар нь OpenAI-ийн дэвшилтэт o1 загваруудтай өрсөлдөхүйц хүчин чадалтай гэж үзэж байна. Түүнчлэн, сургалтын өртөг нь харьцангуй бага байсан ч энэ загвар нь Америкийн хиймэл оюун ухааны компаниудад төдийгүй зах зээлд шинэ эргэлтийг бий болгож, томоохон өөрчлөлтийн эхлэл болж магадгүй байна.

DeepSeek компани нийтлэг шалгуур үзүүлэлтүүд болон Chatbot Arena-ийн тэргүүлэх жагсаалтыг ашиглан загварынхаа өрсөлдөх чадварыг нотолж байгаа ч бодит хэрэглээний кейсүүд нь шинэ загварын ашигтай байдлыг үнэлэхэд илүү тохиромжтой. Үүний тулд бид DeepSeek-ийн R1 загварыг OpenAI-ийн ChatGPT загваруудтай харьцуулан туршиж үзэхээр шийдсэн. Энэ нь өмнө нь ChatGPT болон Google Bard/Gemini хоёрын хооронд хийсэн харьцуулалтын хэв маягийг баримталсан юм.

Энэхүү туршилт нь хамгийн хүнд асуудлуудыг шалгах зорилготой биш байсан бөгөөд харин хэрэглэгчид өдөр тутамдаа хиймэл оюун ухааны загваруудаас асууж болох асуултуудын жишээг багтаасан.

Энэ удаад бид DeepSeek-ийн хариултуудыг ChatGPT-ийн $20/сарын o1 загвар болон $200/сарын o1 Pro загварын хариултуудтай харьцуулан OpenAI-ийн “Орчин үеийн шилдэг” бүтээгдэхүүн болон ихэнх хэрэглэгчдийн ашигладаг “Өдөр тутмын” загвартай хэрхэн өрсөлдөхийг харсан. Өмнөх туршилтуудад ашигласан зарим асуултуудыг дахин хэрэглэсэн бөгөөд Chatbot Arena-ийн “төрөл” хавсралтаас гарган авсан бүтээлч бичлэг, математикийн бодлого, заавар дагах, мөн илүү нарийн төвөгтэй, шаардлага өндөртэй “Хүнд асуултууд” гэх мэт хэсгүүдийг хамарсан шинэ асуултуудыг нэмж оруулсан.

Бид зөвхөн хариултын “Зөв байдал”-д анхаарахаас гадна илүү субъектив шинж чанаруудыг ч мөн харгалзан үзсэн. Түүнчлэн, шаардлагатай тохиолдолд загваруудын хариултын “Сэтгэх урсгал”-ыг судалж, тухайн хариулт хэрхэн гарч ирснийг илүү нарийвчлан ойлгохыг зорьсон. DeepSeek R1-ийн хувьд, энэ нь заримдаа эцсийн хариултад хүрэх дотоод алхмуудыг маш нарийн, дэлгэрэнгүй тайлбарласан урт хэлэлцүүлгүүдийг үүсгэхэд хүргэсэн байна.

What do you think?

16 Points
Upvote Downvote

Leave a Reply

Дэлхийн II дайны үеийн “Хамгийн хатуу Ford-ууд”

Дэлхийн II дайны үеийн “Хамгийн хатуу Ford-ууд”

Дэлхийн хамгийн том мөсөн уул оцон шувуунуудын чухал орчинтой мөргөлдөж болзошгүй байна

Дэлхийн хамгийн том мөсөн уул оцон шувуунуудын чухал орчинтой мөргөлдөж болзошгүй байна