DeepSeek · AI Agent · Google · Yann LeCun · Meta · BeInCrypto Thailand
DeepSeek-R1 สร้างเนื้อหาผิดพลาดมากกว่า V3 ถึง 4 เท่า เสี่ยงต่อโทเคนเอไอสายคริปโต
Compiled by KHAO Editorial — aggregated from 1 outlet. See llms.txt for citation guidance.
◌ Single Source
DeepSeek-R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นเรือธงจากห้องปฏิบัติการ DeepSeek ของจีน เกิดอาการหลอนไปถึง 14.3% ตามเกณฑ์ประเมิน HHEM 2.1 ของ Vectara ซึ่งสูงกว่า DeepSeek-V3 รุ่นก่อนที่ไม่ใช่โมเดลให้เหตุผลถึงเกือบสี่เท่า โดย DeepSeek-V3 มีคะแนนอยู่ที่ 3.9%
Key facts
- ข้อมูลของ Vectara ชี้ให้เห็นว่า R1 ให้ความช่วยเหลือเกินจริงด้วยข้อมูลเท็จ
- หมวดหมู่นี้เติบโตได้ราว 39.4% ในช่วง 30 วันที่ผ่านมา และเฉพาะ Virtuals ก็มีมูลค่าตลาดเกิน 576 ล้าน USD ไปแล้ว
- เหตุใดโทเคน AI ในคริปโตจึงยอมรับการแลกเปลี่ยนนี้
- ความแตกต่างนี้จึงก่อให้เกิดคำถามที่ท้าทายต่อภาคส่วนคริปโต โดยในปัจจุบันโทเคน AI agent ที่เติบโตอย่างรวดเร็วได้พึ่งพา LLMs แบบให้เหตุผลสำหรับการเทรดอัตโนมัติ การให้สัญญาณ และการดำเนินการบนเชน
- DeepSeek-R1 มีอัตราอาการหลอนที่ 14.3% ซึ่งสูงกว่า DeepSeek-V3 เกือบ 4 เท่า ตามที่ Vectara กล่าวไว้ ในโพสต์
- เคยนำเสนอ 416 เหรียญที่มีผลตอบแทนเฉลี่ย 19% อย่างไรก็ตาม กลไกเดียวกันนี้ก็นำไปสู่การแนะนำที่ผิดพลาดเมื่อโมเดลล้มเหลว
Summary
ตัวแทนส่วนใหญ่เหล่านี้ห่อโมเดลภาษาแบบขนาดใหญ่ไว้กับเครื่องมือ เครื่องมือนั้นทำให้ตัวแทนสามารถโพสต์บนโซเชียลมีเดีย, ดำเนินการเทรด, สร้าง token หรือวิเคราะห์ภาวะตลาดได้
Vectara ได้ทดสอบทั้ง โมเดล DeepSeek ผ่าน HHEM 2.1 ซึ่งเป็นเฟรมเวิร์คประเมินอาการหลอนโดยเฉพาะ ทีมยังตรวจสอบผลด้วยวิธีการ FACTS ของ Google ซึ่ง R1 สร้างข้อความเท็จหรือไม่มีข้อมูลรองรับมากกว่า V3 ในทุกการตั้งค่าการทดสอบ
ในรอบตารางผู้นำครั้งต่อไปและผู้สืบทอดของ R1 ในอนาคต จะเป็นตัวชี้วัดว่าการแลกเปลี่ยนระหว่างเหตุผลกับความแม่นยำเริ่มแคบลงหรือไม่