DGrid AI เปิดตัวกรอบงาน Proof of Quality ใหม่ที่ออกแบบมาเพื่อประเมินผลลัพธ์ของ AI และปรับปรุงการกระจายรางวัลในเครือข่ายแบบกระจายศูนย์
เครือข่าย AI แบบกระจายศูนย์มีปัญหาด้านการชำระเงินที่นักวิจัยพยายามแก้ไขอย่างเงียบๆ มาหลายปีแล้ว และเอกสารล่าสุดจาก DGrid AI หยิบยกประเด็นนี้ขึ้นมาพูดถึงโดยตรง ระบบการให้คะแนนคุณภาพที่ขับเคลื่อนรางวัลของโหนดส่วนใหญ่พึ่งพาการมีคำตอบที่ถูกต้องไว้เปรียบเทียบ แต่ในการใช้งานจริง คำตอบดังกล่าวแทบไม่มีอยู่
เอกสารฉบับนี้ ซึ่งเป็นฉบับที่สี่ในชุดงานวิจัยต่อเนื่องของ DGrid เกี่ยวกับ Proof of Quality (PoQ) นำเสนอทางเลือกที่ผ่านการฝึกฝนมาแล้วและเผยแพร่ตัวเลขที่อยู่เบื้องหลัง PoQ ใช้โมเดลตัวประเมินขนาดเล็กเพื่อให้คะแนนคุณภาพของผลลัพธ์แต่ละรายการ และคะแนนเหล่านั้นจะเป็นตัวกำหนดรางวัล ต้นทุนต่ำและขยายขนาดได้
DGrid สร้างสิ่งนี้ขึ้นทีละขั้น ได้แก่ เวอร์ชันที่คำนึงถึงต้นทุนซึ่งนำเวลาแฝงมาคำนวณในสูตรจ่ายเงิน ชั้นความทนทานต่อการโจมตีที่ยังคงมั่นคงเมื่อผู้ให้คะแนนโกหกหรือเกียจคร้าน และกรอบงานที่แบ่ง "คุณภาพ" ออกเป็นส่วนที่สามารถตรวจสอบได้ วิศวกรรมที่แข็งแกร่ง และทุกชั้นก็ยังคงชนกำแพงเดิม
โครงสร้างพื้นฐานของเครือข่าย inference แบบกระจายศูนย์สร้างความท้าทายในการวัดผล โหนดอิสระรันโมเดลภาษาและตอบคำถามผู้ใช้ คำตอบเหล่านั้นต้องได้รับการให้คะแนนเพราะคะแนนกำหนดค่าตอบแทน การยืนยันด้วยการเข้ารหัสของการคำนวณทุกรายการจะปลอดภัยอย่างสมบูรณ์ทางเทคนิคแต่มีราคาแพงเกินไปในระดับขนาดใหญ่ ดังนั้นแนวทางที่ใช้งานได้จริงจึงเป็นการประเมินคุณภาพอัตโนมัติโดยใช้โมเดลขนาดเล็กกว่า
งานก่อนหน้าของ DGrid พัฒนาแนวทางนี้ขึ้นทีละน้อย โดยเพิ่มการจ่ายเงินที่ปรับตามเวลาแฝง การป้องกันผู้ให้คะแนนที่บิดเบือน และการแบ่งย่อยอย่างละเอียดมากขึ้นว่า "คุณภาพ" หมายความว่าอะไรในบริบทการให้คะแนน สิ่งที่ยังไม่สามารถแก้ไขได้อย่างเต็มที่คือสัญญาณการประเมินนั่นเอง
สัญญาณที่แข็งแกร่งที่สุดที่ทีมมีคือความคล้ายคลึงเชิงความหมาย: เปรียบเทียบผลลัพธ์ของโมเดลกับคำตอบที่ถูกต้องที่รู้จักและวัดระยะห่างระหว่างกันใน embedding space วิธีนี้ใช้ได้ในสภาพแวดล้อมมาตรฐานที่มีคำตอบอ้างอิงอยู่ แต่ไม่ได้ผลในเครือข่ายที่ใช้งานจริงซึ่งผู้ใช้ถามคำถามปลายเปิดและไม่มี ground truth รอในฐานข้อมูล
ทางเลือกสำเร็จรูปที่ทดสอบให้ผลแย่กว่า NLI cross-encoder ซึ่งเป็นคลาสโมเดลที่ออกแบบมาเพื่อประเมินความสัมพันธ์เชิงตรรกะระหว่างประโยค ให้ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน −0.363 เมื่อใช้ให้คะแนนคุณภาพคำตอบโดยไม่มีคำตอบอ้างอิง ค่าสหสัมพันธ์ลบหมายความว่าโมเดลมีแนวโน้มที่จะเลือกคำตอบที่แย่มากกว่าคำตอบที่ดี ซึ่งไม่สามารถนำไปใช้เป็นเครื่องมือประเมินได้
แทนที่จะปรับโมเดลที่มีอยู่ นักวิจัยได้ฝึกผู้ตัดสินสามรายโดยเฉพาะสำหรับการให้คะแนนคุณภาพแบบไม่ต้องอ้างอิง แต่ละรายรับคำถามและคำตอบเป็น input และส่งออกคะแนนจาก 0 ถึง 10 โดยไม่มีคำตอบที่ถูกต้องให้
โมเดลทั้งสามแตกต่างกันหลักๆ ในด้านขนาดและความเร็ว:
การฝึกเป็นกระบวนการสองขั้นตอน โมเดลได้รับการ pre-train บน UltraFeedback ซึ่งเป็นชุดข้อมูลสาธารณะของคำตอบที่ได้รับการให้คะแนนโดย GPT-4 ก่อนจะ fine-tune บนการกระจายงานของเครือข่ายเอง เป้าหมายคือให้ผู้ตัดสินมีความเข้าใจพื้นฐานด้านคุณภาพในวงกว้างก่อนจะเจาะจงไปยังบริบทการให้คะแนนเฉพาะ
บนชุดทดสอบที่แยกไว้ 300 ตัวอย่าง ผู้ตัดสิน DeBERTa ได้ค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน 0.747 เทียบกับ ground-truth proxy โดยไม่ต้องเข้าถึงคำตอบอ้างอิงใดๆ ตัวประเมินแบบอิงอ้างอิงจากกรอบงานก่อนหน้าซึ่งมีการเข้าถึงคำตอบที่ถูกต้อง ทำได้สูงสุดเพียง 0.647
ช่องว่างนี้มีคำอธิบายที่ตรงไปตรงมา ตัวประเมินรุ่นเก่าเป็นตัวชี้วัดความคล้ายคลึงที่วัด cosine distance กับ reference embedding ผู้ตัดสินใหม่ได้รับการปรับให้เหมาะสมแบบ end-to-end สำหรับงานการให้คะแนนโดยตรง ความแตกต่างด้านประสิทธิภาพสะท้อนถึงความแตกต่างนั้นมากกว่าความก้าวหน้าทางสถาปัตยกรรมใดๆ
ข้อสังเกตหนึ่งที่ผู้เขียนระบุไว้: ground truth ที่ใช้ที่นี่เป็นเพียง proxy เอง ได้แก่ การซ้อนทับของคำในระดับ token แทนที่จะเป็นการตัดสินของมนุษย์ ผู้ตัดสินมีความสัมพันธ์ที่ดีกับตัวชี้วัดนี้ แต่ว่าการซ้อนทับของคำสะท้อนสิ่งที่มนุษย์จะถือว่าเป็นคำตอบที่มีคุณภาพได้อย่างน่าเชื่อถือหรือไม่นั้นยังคงเป็นคำถามที่แยกออกมาและยังไม่ได้รับการแก้ไข
คุณสมบัติสองอย่างที่เน้นการใช้งานจริงมาพร้อมกับผู้ตัดสิน ไปป์ไลน์แบบ cascading จะส่งคำถามผ่านโมเดลน้ำหนักเบาก่อนและยกระดับไปยังโมเดลหนักขึ้นเฉพาะเมื่อคะแนนไม่ชัดเจน ช่วยลดต้นทุนการประเมินได้สูงถึง 72.7% ที่การตั้งค่า threshold ที่เข้มงวดที่สุด แม้ว่าค่าสหสัมพันธ์จะลดลงเหลือประมาณ 0.51 ในการกำหนดค่านั้น กลไกการปรับเทียบออนไลน์ที่ทำงานโดยไม่ต้องปรับแต่งด้วยตนเองจะระบุคุณภาพเชิงความหมายว่าเป็นสัญญาณหลักอย่างสม่ำเสมอและปรับน้ำหนักตามนั้น โดยกำหนดให้มีน้ำหนักเป็น 4.7 เท่าของน้ำหนักเริ่มต้นเมื่อเวลาผ่านไป
ผู้ตัดสินมีประสิทธิภาพไม่สม่ำเสมอในประเภทงานต่างๆ สำหรับการตอบคำถาม ค่าสหสัมพันธ์ถึง 0.830 แต่สำหรับการสรุปความ ลดลงเหลือ 0.199 เอกสารอธิบายว่าสาเหตุไม่ได้มาจากความล้มเหลวของผู้ตัดสินเอง แต่มาจากตัวชี้วัดการประเมินที่ใช้ระหว่างการฝึก: การซ้อนทับของคำแบบดิบเป็นตัววัดคุณภาพการสรุปความที่ไม่ดี ดังนั้นโมเดลที่ฝึกกับสิ่งนี้จึงเรียนรู้ที่จะติดตามสัญญาณที่อ่อนแอ ผู้เขียนอธิบายว่านี่คือปัญหาเปิดหลักมากกว่าข้อจำกัดที่รู้จักซึ่งถูกจัดการอย่างเงียบๆ
การกำหนดกรอบดังกล่าวสอดคล้องกับวิธีที่เอกสารนำเสนอผลลัพธ์โดยรวม ได้แก่ อย่างเป็นระเบียบ โดยระบุกรณีความล้มเหลวอย่างชัดเจนพอๆ กับการปรับปรุง เมื่องานวิจัยดำเนินมาถึงสี่ฉบับ ผลงานนี้อ่านดูน้อยกว่าการประกาศผลิตภัณฑ์และมากกว่าเหมือนทีมที่กำลังปิดช่องว่างทีละน้อยในสิ่งที่พวกเขาตั้งใจจะนำไปใช้จริง
การเปิดเผยข้อมูล: เนื้อหานี้จัดทำโดยบุคคลที่สาม ทั้ง crypto.news และผู้เขียนบทความนี้ไม่ได้รับรองผลิตภัณฑ์ใดๆ ที่กล่าวถึงในหน้านี้ ผู้ใช้ควรทำการวิจัยของตนเองก่อนดำเนินการใดๆ ที่เกี่ยวข้องกับบริษัท


