BeInCrypto Thailand

DeepSeek-R1 สร้างเนื้อหาผิดพลาดมากกว่า V3 ถึง 4 เท่า เสี่ยงต่อโทเคนเอไอสายคริปโต

BeInCrypto Thailand ·May 11 · 20:03 UTC

DeepSeek-R1 ซึ่งเป็นโมเดลการให้เหตุผลรุ่นเรือธงจากห้องปฏิบัติการ DeepSeek ของจีน เกิดอาการหลอนไปถึง 14.3% ตามเกณฑ์ประเมิน HHEM 2.1 ของ Vectara ซึ่งสูงกว่า DeepSeek-V3 รุ่นก่อนที่ไม่ใช่โมเดลให้เหตุผลถึงเกือบสี่เท่า โดย DeepSeek-V3 มีคะแนนอยู่ที่ 3.9%

ความแตกต่างนี้จึงก่อให้เกิดคำถามที่ท้าทายต่อภาคส่วนคริปโต โดยในปัจจุบันโทเคน AI agent ที่เติบโตอย่างรวดเร็วได้พึ่งพา LLMs แบบให้เหตุผลสำหรับการเทรดอัตโนมัติ การให้สัญญาณ และการดำเนินการบนเชน

## ข้อมูลของ Vectara ชี้ให้เห็นว่า R1 ให้ความช่วยเหลือเกินจริงด้วยข้อมูลเท็จ

Vectara ได้ทดสอบทั้ง โมเดล DeepSeek ผ่าน HHEM 2.1 ซึ่งเป็นเฟรมเวิร์คประเมินอาการหลอนโดยเฉพาะ ทีมยังตรวจสอบผลด้วยวิธีการ FACTS ของ Google ซึ่ง R1 สร้างข้อความเท็จหรือไม่มีข้อมูลรองรับมากกว่า V3 ในทุกการตั้งค่าการทดสอบ

สาเหตุไม่ได้เป็นเพียงแค่ระดับความลึกของการให้เหตุผลเท่านั้น นักวิเคราะห์ของ Vectara พบว่า R1 มักจะให้ความช่วยเหลือเกินไป โดยโมเดลจะเติมข้อมูลที่ไม่มีอยู่ในข้อความต้นฉบับเข้ามา

รายละเอียดที่เติมนี้ แม้อาจถูกต้องตามข้อเท็จจริง แต่ก็ยังนับเป็นอาการหลอนได้เช่นกัน นิสัยนี้จึงแทรกบริบทที่แต่งขึ้นเข้ากับคำตอบที่ปกติดี

Vectara ได้กล่าวถึงข้อค้นพบนี้อย่างตรงไปตรงมาในโพสต์สาธารณะบน X

DeepSeek-R1 มีอัตราอาการหลอนที่ 14.3% ซึ่งสูงกว่า DeepSeek-V3 เกือบ 4 เท่า ตามที่ Vectara กล่าวไว้ ในโพสต์

รูปแบบนี้ไม่ได้เกิดกับ DeepSeek เพียงเจ้าเดียว เพราะผู้ติดตามอุตสาหกรรมระบุว่าการแลกเปลี่ยนนี้เกิดขึ้นกับโมเดลที่ถูกฝึกให้ให้เหตุผลจากห้องปฏิบัติการอื่นเช่นกัน การเรียนรู้แบบ reinforcement ที่เสริม chain-of-thought ยังเป็นการให้รางวัลกับการสร้างคำตอบที่กล้าแสดงออกและมั่นใจยิ่งขึ้น

## เหตุใดโทเคน AI ในคริปโตจึงยอมรับการแลกเปลี่ยนนี้

ขณะนี้ตลาดคริปโตมีโทเคน AI agent หลายร้อยรายการ โดยมีผู้นำอย่าง Virtuals Protocol (VIRTUAL) , ai16z (AI16Z) และ aixbt (AIXBT)

หมวดหมู่นี้เติบโตได้ราว 39.4% ในช่วง 30 วันที่ผ่านมา และเฉพาะ Virtuals ก็มีมูลค่าตลาดเกิน 576 ล้าน USD ไปแล้ว

ตัวแทนส่วนใหญ่เหล่านี้ห่อโมเดลภาษาแบบขนาดใหญ่ไว้กับเครื่องมือ เครื่องมือนั้นทำให้ตัวแทนสามารถโพสต์บนโซเชียลมีเดีย, ดำเนินการเทรด, สร้าง token หรือวิเคราะห์ภาวะตลาดได้

เมื่อโมเดลพื้นฐานสร้างราคาขึ้นมาเอง สร้างคู่ค้าหรือสร้างที่อยู่สัญญา ผลลัพธ์อาจส่งผลบนบล็อกเชนทันที

BeInCrypto ได้วิเคราะห์ข้อมูลของ AIXBT พบว่าตัวแทนดังกล่าว เคยนำเสนอ 416 เหรียญที่มีผลตอบแทนเฉลี่ย 19% อย่างไรก็ตาม กลไกเดียวกันนี้ก็นำไปสู่การแนะนำที่ผิดพลาดเมื่อโมเดลล้มเหลว

ความเสี่ยงจะเพิ่มขึ้นตามระดับอัตโนมัติ ตัวแทนที่สรุปความรู้สึกแบบอ่านได้อย่างเดียวจะต่างจากตัวแทนที่ถือกุญแจคลัง

โมเดลที่ใช้เหตุผลมักน่าสนใจสำหรับ ตัวแทนที่ต้องวางแผนหลายขั้นตอน ซึ่งเป็นกรณีเดียวกับที่ตัวเลข 14.3% ของ Vectara แสดงผลหนักสุด

ข้อเท็จจริงที่หลอกขึ้นมาเรื่องเดียวตั้งแต่ช่วงต้นของกระบวนการคิด อาจแพร่กระจายไปยังการกระทำทุกอย่างในภายหลัง

## LeCun ชี้ว่าปัญหามาจากสถาปัตยกรรม

Yann LeCun หัวหน้าฝ่ายวิทยาศาสตร์ AI ของ Meta ได้กล่าวมาโดยตลอดว่า LLM เชิงลำดับไม่สามารถหลีกเลี่ยงการประดิษฐ์ข้อเท็จจริงออกเองได้อย่างสมบูรณ์ เพราะสถาปัตยกรรมนี้เองยังขาดแบบจำลองที่ยึดโยงกับโลกแห่งความจริง

การเรียนรู้แบบเสริมแรงกับ chain-of-thought อาจช่วยกลบปัญหาในขอบเขตจำกัด เช่น คณิตศาสตร์และการเขียนโค้ด อย่างไรก็ตาม สาเหตุรากเหง้ายังคงอยู่ที่เดิม

แล็บวิจัยบางแห่งไม่เห็นด้วย พวกเขาชี้ว่ามีความก้าวหน้าในการลดอัตราการประดิษฐ์ข้อเท็จจริง ด้วยกระบวนการเรียกข้อมูลเสริม, การปรับแต่งหลังการฝึก และการใช้ verifier model กระนั้น รายงานจากนักพัฒนาก็มักสอดคล้องกับข้อมูลบนตารางอันดับเช่นกัน

นักวิจัย AI ที่ใช้ชื่อว่า xlr8harder ได้เขียนบน X เกี่ยวกับประสบการณ์ดิฉันในขณะดีบั๊กกับ R1 และสรุปประสบการณ์ที่เจอในแต่ละวัน

Deepseek R1 มีความเข้าใจในเส้นคิดของตัวเองที่ยังไม่ได้เชื่อมโยง … ดังนั้นจึงมักเริ่มจากการสร้างเรื่องขึ้นมาหลอกดิฉันอยู่เสมอ พวกเขา กล่าวไว้

สำหรับนักพัฒนาตัวแทนในวงการคริปโต คำถามที่สำคัญคือการบริหารความเสี่ยงไม่ใช่เรื่องเชิงสถาปัตยกรรม ดังนั้น การออกแบบที่ให้โมเดลผ่านขั้นตอนตรวจสอบในทุกการอ้างสิทธิ์อาจทำงานได้ดีกว่า

สิ่งเดียวกันนี้ก็เกิดขึ้นกับเอเจนต์ที่เน้นใช้โมเดลขนาดเล็กแต่มีแนวโน้มอนุรักษ์นิยมมากกว่าในการดำเนินการทางการเงิน

ในรอบตารางผู้นำครั้งต่อไปและผู้สืบทอดของ R1 ในอนาคต จะเป็นตัวชี้วัดว่าการแลกเปลี่ยนระหว่างเหตุผลกับความแม่นยำเริ่มแคบลงหรือไม่

ณ ขณะนี้ ช่องว่างระหว่าง 14.3% กับ 3.9% เป็นรายละเอียดเชิงปฏิบัติที่ควรจับตาดู เนื่องจากอาจแบ่งแยกโทเคนตัวแทน AI ที่กำลังส่งมอบผลิตภัณฑ์ใช้งานจริงกับโทเคนที่ส่งมอบแต่เพียงสัญญา

Read the full article on the publisher site

BeInCrypto Thailand →