DeepSeek · AI Agent · Google · Yann LeCun · Meta · BeInCrypto Thailand
DeepSeek-R1 สร้างเนื้อหาผิดพลาดมากกว่า V3 ถึง 4 เท่า เสี่ยงต่อโทเคนเอไอสายคริปโต
Compiled by KHAO Editorial — aggregated from 1 outlet. See llms.txt for citation guidance.
◌ Single Source
DeepSeek-R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นเรือธงจากห้องปฏิบัติการ DeepSeek ของจีน เกิดอาการหลอนไปถึง 14.3% ตามเกณฑ์ประเมิน HHEM 2.1 ของ Vectara ซึ่งสูงกว่า DeepSeek-V3 รุ่นก่อนที่ไม่ใช่โมเดลให้เหตุผลถึงเกือบสี่เท่า โดย DeepSeek-V3 มีคะแนนอยู่ที่ 3.9%
Summary
DeepSeek-R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นเรือธงจากห้องปฏิบัติการ DeepSeek ของจีน เกิดอาการหลอนไปถึง 14.3% ตามเกณฑ์ประเมิน HHEM 2.1 ของ Vectara ซึ่งสูงกว่า DeepSeek-V3 รุ่นก่อนที่ไม่ใช่โมเดลให้เหตุผลถึงเกือบสี่เท่า โดย DeepSeek-V3 มีคะแนนอยู่ที่ 3.9%
ตัวแทนส่วนใหญ่เหล่านี้ห่อโมเดลภาษาแบบขนาดใหญ่ไว้กับเครื่องมือ เครื่องมือนั้นทำให้ตัวแทนสามารถโพสต์บนโซเชียลมีเดีย, ดำเนินการเทรด, สร้าง token หรือวิเคราะห์ภาวะตลาดได้
ในรอบตารางผู้นำครั้งต่อไปและผู้สืบทอดของ R1 ในอนาคต จะเป็นตัวชี้วัดว่าการแลกเปลี่ยนระหว่างเหตุผลกับความแม่นยำเริ่มแคบลงหรือไม่