ซื้อคริปโต ตลาด สปอต ฟิวเจอร์สSPCX Earn ศูนย์กิจกรรม

เพิ่มเติม

DGrid AI แนะนำกรอบการทำงาน Proof of Quality ใหม่ที่ออกแบบมาเพื่อประเมินผลลัพธ์ของ AI และปรับปรุงการกระจายรางวัลในเครือข่ายแบบกระจายศูนย์ กระจายศูนย์DGrid AI แนะนำกรอบการทำงาน Proof of Quality ใหม่ที่ออกแบบมาเพื่อประเมินผลลัพธ์ของ AI และปรับปรุงการกระจายรางวัลในเครือข่ายแบบกระจายศูนย์ กระจายศูนย์

การวิจัยล่าสุดของ DGrid AI แก้ไขข้อบกพร่องหลักในระบบการให้คะแนน AI แบบกระจายศูนย์

แหล่งที่มา: Crypto.news

2026/06/18 18:43

2 นาทีในการอ่าน

แชร์

AI$0.02471+0.98%

หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com

DGrid AI เปิดตัวกรอบงาน Proof of Quality ใหม่ที่ออกแบบมาเพื่อประเมินผลลัพธ์ของ AI และปรับปรุงการกระจายรางวัลในเครือข่ายแบบกระจายศูนย์

สรุป

งานวิจัย PoQ ใหม่ของ DGrid AI แนะนำการให้คะแนนแบบไม่ต้องอ้างอิงเพื่อมอบรางวัลให้โหนด AI โดยไม่ต้องการคำตอบที่ถูกต้อง
DGrid ฝึกผู้ตัดสิน AI เฉพาะทางเพื่อประเมินคุณภาพผลลัพธ์ ช่วยปรับปรุงระบบรางวัล AI แบบกระจายศูนย์ในระดับขนาดใหญ่
โมเดล Proof of Quality ใหม่ของ DGrid AI ช่วยให้เครือข่าย AI แบบกระจายศูนย์สามารถประเมินคำตอบได้อย่างแม่นยำโดยไม่ต้องใช้ข้อมูล ground truth

เครือข่าย AI แบบกระจายศูนย์มีปัญหาด้านการชำระเงินที่นักวิจัยพยายามแก้ไขอย่างเงียบๆ มาหลายปีแล้ว และเอกสารล่าสุดจาก DGrid AI หยิบยกประเด็นนี้ขึ้นมาพูดถึงโดยตรง ระบบการให้คะแนนคุณภาพที่ขับเคลื่อนรางวัลของโหนดส่วนใหญ่พึ่งพาการมีคำตอบที่ถูกต้องไว้เปรียบเทียบ แต่ในการใช้งานจริง คำตอบดังกล่าวแทบไม่มีอยู่

เอกสารฉบับนี้ ซึ่งเป็นฉบับที่สี่ในชุดงานวิจัยต่อเนื่องของ DGrid เกี่ยวกับ Proof of Quality (PoQ) นำเสนอทางเลือกที่ผ่านการฝึกฝนมาแล้วและเผยแพร่ตัวเลขที่อยู่เบื้องหลัง PoQ ใช้โมเดลตัวประเมินขนาดเล็กเพื่อให้คะแนนคุณภาพของผลลัพธ์แต่ละรายการ และคะแนนเหล่านั้นจะเป็นตัวกำหนดรางวัล ต้นทุนต่ำและขยายขนาดได้

DGrid สร้างสิ่งนี้ขึ้นทีละขั้น ได้แก่ เวอร์ชันที่คำนึงถึงต้นทุนซึ่งนำเวลาแฝงมาคำนวณในสูตรจ่ายเงิน ชั้นความทนทานต่อการโจมตีที่ยังคงมั่นคงเมื่อผู้ให้คะแนนโกหกหรือเกียจคร้าน และกรอบงานที่แบ่ง "คุณภาพ" ออกเป็นส่วนที่สามารถตรวจสอบได้ วิศวกรรมที่แข็งแกร่ง และทุกชั้นก็ยังคงชนกำแพงเดิม

ปัญหาการให้คะแนนพัฒนามาอย่างไร

โครงสร้างพื้นฐานของเครือข่าย inference แบบกระจายศูนย์สร้างความท้าทายในการวัดผล โหนดอิสระรันโมเดลภาษาและตอบคำถามผู้ใช้ คำตอบเหล่านั้นต้องได้รับการให้คะแนนเพราะคะแนนกำหนดค่าตอบแทน การยืนยันด้วยการเข้ารหัสของการคำนวณทุกรายการจะปลอดภัยอย่างสมบูรณ์ทางเทคนิคแต่มีราคาแพงเกินไปในระดับขนาดใหญ่ ดังนั้นแนวทางที่ใช้งานได้จริงจึงเป็นการประเมินคุณภาพอัตโนมัติโดยใช้โมเดลขนาดเล็กกว่า

งานก่อนหน้าของ DGrid พัฒนาแนวทางนี้ขึ้นทีละน้อย โดยเพิ่มการจ่ายเงินที่ปรับตามเวลาแฝง การป้องกันผู้ให้คะแนนที่บิดเบือน และการแบ่งย่อยอย่างละเอียดมากขึ้นว่า "คุณภาพ" หมายความว่าอะไรในบริบทการให้คะแนน สิ่งที่ยังไม่สามารถแก้ไขได้อย่างเต็มที่คือสัญญาณการประเมินนั่นเอง

สัญญาณที่แข็งแกร่งที่สุดที่ทีมมีคือความคล้ายคลึงเชิงความหมาย: เปรียบเทียบผลลัพธ์ของโมเดลกับคำตอบที่ถูกต้องที่รู้จักและวัดระยะห่างระหว่างกันใน embedding space วิธีนี้ใช้ได้ในสภาพแวดล้อมมาตรฐานที่มีคำตอบอ้างอิงอยู่ แต่ไม่ได้ผลในเครือข่ายที่ใช้งานจริงซึ่งผู้ใช้ถามคำถามปลายเปิดและไม่มี ground truth รอในฐานข้อมูล

ทางเลือกสำเร็จรูปที่ทดสอบให้ผลแย่กว่า NLI cross-encoder ซึ่งเป็นคลาสโมเดลที่ออกแบบมาเพื่อประเมินความสัมพันธ์เชิงตรรกะระหว่างประโยค ให้ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน −0.363 เมื่อใช้ให้คะแนนคุณภาพคำตอบโดยไม่มีคำตอบอ้างอิง ค่าสหสัมพันธ์ลบหมายความว่าโมเดลมีแนวโน้มที่จะเลือกคำตอบที่แย่มากกว่าคำตอบที่ดี ซึ่งไม่สามารถนำไปใช้เป็นเครื่องมือประเมินได้

สิ่งที่เอกสารนำเสนอ

แทนที่จะปรับโมเดลที่มีอยู่ นักวิจัยได้ฝึกผู้ตัดสินสามรายโดยเฉพาะสำหรับการให้คะแนนคุณภาพแบบไม่ต้องอ้างอิง แต่ละรายรับคำถามและคำตอบเป็น input และส่งออกคะแนนจาก 0 ถึง 10 โดยไม่มีคำตอบที่ถูกต้องให้

โมเดลทั้งสามแตกต่างกันหลักๆ ในด้านขนาดและความเร็ว:

TextCNN (~10M พารามิเตอร์) ทำงานในเวลาประมาณ 1 มิลลิวินาทีต่อการเรียกใช้งาน เหมาะสำหรับการกรองรอบแรกที่มีปริมาณงานสูง
MiniLM (22M พารามิเตอร์) อยู่ตรงกลางที่ประมาณ 13 มิลลิวินาที
DeBERTa (184M พารามิเตอร์) ใช้เวลาประมาณ 15 มิลลิวินาทีและได้รับการปรับให้เหมาะสมเพื่อความแม่นยำ

การฝึกเป็นกระบวนการสองขั้นตอน โมเดลได้รับการ pre-train บน UltraFeedback ซึ่งเป็นชุดข้อมูลสาธารณะของคำตอบที่ได้รับการให้คะแนนโดย GPT-4 ก่อนจะ fine-tune บนการกระจายงานของเครือข่ายเอง เป้าหมายคือให้ผู้ตัดสินมีความเข้าใจพื้นฐานด้านคุณภาพในวงกว้างก่อนจะเจาะจงไปยังบริบทการให้คะแนนเฉพาะ

ผลลัพธ์หลัก

บนชุดทดสอบที่แยกไว้ 300 ตัวอย่าง ผู้ตัดสิน DeBERTa ได้ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน 0.747 เทียบกับ ground-truth proxy โดยไม่ต้องเข้าถึงคำตอบอ้างอิงใดๆ ตัวประเมินแบบอิงอ้างอิงจากกรอบงานก่อนหน้าซึ่งมีการเข้าถึงคำตอบที่ถูกต้อง ทำได้สูงสุดเพียง 0.647

ช่องว่างนี้มีคำอธิบายที่ตรงไปตรงมา ตัวประเมินรุ่นเก่าเป็นตัวชี้วัดความคล้ายคลึงที่วัด cosine distance กับ reference embedding ผู้ตัดสินใหม่ได้รับการปรับให้เหมาะสมแบบ end-to-end สำหรับงานการให้คะแนนโดยตรง ความแตกต่างด้านประสิทธิภาพสะท้อนถึงความแตกต่างนั้นมากกว่าความก้าวหน้าทางสถาปัตยกรรมใดๆ

ข้อสังเกตหนึ่งที่ผู้เขียนระบุไว้: ground truth ที่ใช้ที่นี่เป็นเพียง proxy เอง ได้แก่ การซ้อนทับของคำในระดับ token แทนที่จะเป็นการตัดสินของมนุษย์ ผู้ตัดสินมีความสัมพันธ์ที่ดีกับตัวชี้วัดนี้ แต่ว่าการซ้อนทับของคำสะท้อนสิ่งที่มนุษย์จะถือว่าเป็นคำตอบที่มีคุณภาพได้อย่างน่าเชื่อถือหรือไม่นั้นยังคงเป็นคำถามที่แยกออกมาและยังไม่ได้รับการแก้ไข

คุณสมบัติสองอย่างที่เน้นการใช้งานจริงมาพร้อมกับผู้ตัดสิน ไปป์ไลน์แบบ cascading จะส่งคำถามผ่านโมเดลน้ำหนักเบาก่อนและยกระดับไปยังโมเดลหนักขึ้นเฉพาะเมื่อคะแนนไม่ชัดเจน ช่วยลดต้นทุนการประเมินได้สูงถึง 72.7% ที่การตั้งค่า threshold ที่เข้มงวดที่สุด แม้ว่าค่าสหสัมพันธ์จะลดลงเหลือประมาณ 0.51 ในการกำหนดค่านั้น กลไกการปรับเทียบออนไลน์ที่ทำงานโดยไม่ต้องปรับแต่งด้วยตนเองจะระบุคุณภาพเชิงความหมายว่าเป็นสัญญาณหลักอย่างสม่ำเสมอและปรับน้ำหนักตามนั้น โดยกำหนดให้มีน้ำหนักเป็น 4.7 เท่าของน้ำหนักเริ่มต้นเมื่อเวลาผ่านไป

จุดที่ระบบยังคงมีปัญหา

ผู้ตัดสินมีประสิทธิภาพไม่สม่ำเสมอในประเภทงานต่างๆ สำหรับการตอบคำถาม ค่าสหสัมพันธ์ถึง 0.830 แต่สำหรับการสรุปความ ลดลงเหลือ 0.199 เอกสารอธิบายว่าสาเหตุไม่ได้มาจากความล้มเหลวของผู้ตัดสินเอง แต่มาจากตัวชี้วัดการประเมินที่ใช้ระหว่างการฝึก: การซ้อนทับของคำแบบดิบเป็นตัววัดคุณภาพการสรุปความที่ไม่ดี ดังนั้นโมเดลที่ฝึกกับสิ่งนี้จึงเรียนรู้ที่จะติดตามสัญญาณที่อ่อนแอ ผู้เขียนอธิบายว่านี่คือปัญหาเปิดหลักมากกว่าข้อจำกัดที่รู้จักซึ่งถูกจัดการอย่างเงียบๆ

การกำหนดกรอบดังกล่าวสอดคล้องกับวิธีที่เอกสารนำเสนอผลลัพธ์โดยรวม ได้แก่ อย่างเป็นระเบียบ โดยระบุกรณีความล้มเหลวอย่างชัดเจนพอๆ กับการปรับปรุง เมื่องานวิจัยดำเนินมาถึงสี่ฉบับ ผลงานนี้อ่านดูน้อยกว่าการประกาศผลิตภัณฑ์และมากกว่าเหมือนทีมที่กำลังปิดช่องว่างทีละน้อยในสิ่งที่พวกเขาตั้งใจจะนำไปใช้จริง

การเปิดเผยข้อมูล: เนื้อหานี้จัดทำโดยบุคคลที่สาม ทั้ง crypto.news และผู้เขียนบทความนี้ไม่ได้รับรองผลิตภัณฑ์ใดๆ ที่กล่าวถึงในหน้านี้ ผู้ใช้ควรทำการวิจัยของตนเองก่อนดำเนินการใดๆ ที่เกี่ยวข้องกับบริษัท

โอกาสทางการตลาด

ราคา Gensyn(AI)

$0.02471

$0.02471$0.02471

+0.20%

USD

Gensyn (AI) กราฟราคาสด

คอมโบฟุตบอลโลก: ลุ้นสูงสุด 200x

รวมการแข่งขันฟุตบอลโลกได้สูงสุด 20 คู่ในคำสั่งเดียว

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC