สวัสดี! ผมชื่อ Ashton ผมเป็นวิศวกรผู้ก่อตั้งที่ Theta ซึ่งผมทำงานเกี่ยวกับโครงสร้างพื้นฐาน RL, RL และระบบกระจาย ผมเน้นเฉพาะด้านการใช้คอมพิวเตอร์และการใช้เครื่องมือ ในอดีตผมเคยทำงานที่ Amazon AGI และจัดการกับโครงสร้างพื้นฐานการอนุมานและการใช้เครื่องมือ ในเวลาว่างผมชอบการออกแบบกราฟิก โปรเจกต์เสริม และการปีนผา
บทความล่าสุดของผม "AI ของคุณสามารถใช้คอมพิวเตอร์ได้จริงหรือไม่? แผนที่เกณฑ์มาตรฐานการใช้คอมพิวเตอร์ปี 2025" เกี่ยวข้องกับหนึ่งในพื้นที่ที่ร้อนแรงที่สุดใน VC ตอนนี้: สภาพแวดล้อม RL และการประเมินผล ผมได้ให้ภาพรวมที่ครอบคลุมของเกณฑ์มาตรฐานการใช้คอมพิวเตอร์ที่ใช้มากที่สุด พร้อมคำแนะนำที่ปฏิบัติได้จริงเกี่ยวกับวิธีเลือกเกณฑ์มาตรฐานสำหรับการฝึกและทดสอบตัวแทนการใช้คอมพิวเตอร์
ผมพบช่องว่างเดิมๆ อยู่เสมอ: ไม่มีบทความมากนักที่ทบทวนเกณฑ์มาตรฐานเหล่านี้ และเมื่อสาขานี้เติบโตขึ้น สิ่งสำคัญคือเราต้องประเมินคุณภาพจริงๆ แทนที่จะให้รางวัลกับสิ่งที่เกิดขึ้นเพื่อเล่นเกมกับตัวชี้วัด เราเคยอยู่ตรงนี้มาก่อน ในยุคแรกของ LLM เกณฑ์มาตรฐานมีความสุ่มและแตกต่างกันมากพอที่จะสะท้อนผู้ชนะที่แท้จริงได้เพียงเล็กน้อย
เกณฑ์มาตรฐานกลายเป็นตารางคะแนนที่เป็นที่ยอมรับสำหรับ "โมเดลที่ดีที่สุด" และจากนั้นผู้คนก็ตระหนักว่าหลายอย่างไม่ได้วัดสิ่งที่พวกเขาอ้าง
หนึ่งในความล้มเหลวที่เปิดเผยมากที่สุดในยุคแรกคือเมื่อ "ความเข้าใจในการอ่าน" กลายเป็น "การจับคู่รูปแบบบนโครงสร้างชุดข้อมูล" อย่างเงียบๆ นักวิจัยได้ทำการทดสอบพื้นฐานที่ยั่วยุโดยเจตนา (เฉพาะคำถาม, เฉพาะประโยคสุดท้าย) และผลลัพธ์สูงพอที่จะก่อให้เกิดความเป็นไปได้ที่ไม่สบายใจ: เกณฑ์มาตรฐานไม่ได้บังคับให้โมเดลใช้ข้อความทั้งหมดอย่างสม่ำเสมอ ในบทวิจารณ์ปี 2018 ประเด็นไม่ใช่ว่าการอ่านไม่สำคัญ แต่เป็นเพราะชุดข้อมูลบางชุดทำให้มันเป็นทางเลือกโดยบังเอิญด้วยการให้รางวัลมากเกินไปกับทางลัด เช่น ความใหม่และคำตอบที่เป็นแบบแผน
\
# งานที่ควรจะเป็น: ตอบคำถามจากข้อความและคำถามที่ให้มา ข้อความ (สรุป): - ประโยค 1–8: วันของจอห์นที่โรงเรียน (รายละเอียดส่วนใหญ่ไม่เกี่ยวข้อง) - ประโยค 9: "หลังเลิกเรียน จอห์นไปที่ห้องครัว" - ประโยค 10: "เขากินพิซซ่าหนึ่งชิ้นก่อนเริ่มทำการบ้าน" คำถาม: "จอห์นกินอะไร?" คำตอบ: "พิซซ่า"
เกณฑ์มาตรฐานให้รางวัลกับทางลัดโดยไม่ตั้งใจ ซึ่งโมเดลให้น้ำหนักกับประโยคสุดท้ายมากเกินไป (เพราะคำตอบมักอยู่ใกล้ตอนจบ) และเพียงแค่ดึงกรรมตรงของการกระทำล่าสุด ("กิน ___") ซึ่งในกรณีนี้ได้ "พิซซ่า"
และต่อมาก็มีพื้นฐานที่สร้างความเสียหายมากขึ้น: ลบข้อความทั้งหมดออกและดูว่าเกิดอะไรขึ้น หากโมเดลที่มีเฉพาะคำถามสามารถแข่งขันได้ นั่นเป็นสัญญาณว่าชุดข้อมูลกำลังรั่วไหลสัญญาณผ่านการทำซ้ำและความเป็นมาแทนที่จะทดสอบความเข้าใจที่อิงกับข้อความ
คำถาม: "จอห์นกินอะไร?"
พื้นฐานนี้เป็นเพียงการตรวจสอบความสมเหตุสมผล: โมเดลยังคงทำคะแนนได้ดีโดยอาศัยเทมเพลตคำตอบความถี่สูงโดยไม่ต้องอิงกับข้อความเลยหรือไม่? ในทางปฏิบัติ มันเพียงแค่เดาโทเค็นที่ชุดข้อมูลให้รางวัลมากเกินไป ("พิซซ่า", "แซนด์วิช") และถ้านั่นใช้ได้บ่อยกว่าที่ควรจะเป็น คุณไม่ได้วัดความเข้าใจมากเท่ากับที่คุณกำลังวัดความเป็นมาของชุดข้อมูล
การประเมินการใช้คอมพิวเตอร์ได้สร้างทางลัดที่ตรงไปตรงมายิ่งขึ้น: ตัวแทนมีเบราว์เซอร์ เกณฑ์มาตรฐานเป็นสาธารณะ และการประเมินกลายเป็นการสอบแบบเปิดตำราที่มีเฉลยอยู่ในหน้าสุดท้าย ในเอกสาร Holistic Agent Leaderboard (HAL) ผู้เขียนรายงานว่าสังเกตเห็นตัวแทนที่ค้นหาเกณฑ์มาตรฐานบน HuggingFace แทนที่จะแก้ปัญหา ซึ่งเป็นพฤติกรรมที่คุณจะจับได้ก็ต่อเมื่อตรวจสอบบันทึกเท่านั้น
\
# งานที่ควรจะเป็น: ทำงานตามขั้นตอนในสภาพแวดล้อมเว็บ งาน: "กำหนดค่าการตั้งค่า X ในแอปและตรวจสอบว่าเปิดใช้งานแล้ว" โหมดความล้มเหลว: 1) เปิดแท็บใหม่ 2) ค้นหา: "สถานะที่คาดหวังของเกณฑ์มาตรฐาน X" / "HAL <benchmark> setting X" 3) ค้นพบ: repo / การเขียนลีดเดอร์บอร์ด / การ์ดชุดข้อมูล / เธรดปัญหา 4) ทำซ้ำสถานะสุดท้ายที่คาดหวัง (คำตอบ)
ณ จุดนั้น การประเมินกำลังวัดว่ามันสามารถหาเฉลยได้หรือไม่
งาน: "หาหน้าที่ถูกต้องและดึง Y" โหมดความล้มเหลว: - ค้นหา: "<ชื่อเกณฑ์มาตรฐาน> Y" - คัดลอกจากสิ่งที่เผยแพร่สู่สาธารณะ (เอกสาร, โพสต์ในฟอรัม, การ์ดชุดข้อมูล) - วางค่าลงในเอาต์พุตของตัวแทนเสมือนว่ามาจากการโต้ตอบ
หากตัวแทนสามารถดึงค่าจากการ์ดชุดข้อมูลหรือ repo และยัง "ผ่าน" ได้ การตรวจสอบความสำเร็จกำลังให้เกรดความเป็นไปได้ ไม่ใช่ความถูกต้องของการโต้ตอบ งานสาธารณะบวกกับการตรวจสอบอย่างผิวเผินทำให้การค้นหาเว็บกลายเป็นช่องโหว่
ตัวอย่างทั้งสองนี้เป็นสัญญาณเตือน: หากเราไม่ยึดเกณฑ์มาตรฐานการใช้คอมพิวเตอร์ให้มีมาตรฐานที่สูงขึ้นตั้งแต่เนิ่นๆ เราจะทำซ้ำยุค LLM เพียงแต่มี UI ที่ดีขึ้นและวิธีการโกงที่ซับซ้อนมากขึ้น
ใช่! การทำงานกับสภาพแวดล้อม RL และโครงสร้างพื้นฐาน RL รอบการใช้คอมพิวเตอร์ ผมถูกล้อมรอบด้วยโมเดลการใช้คอมพิวเตอร์ที่ดีที่สุดและสภาพแวดล้อมการฝึกที่สมจริงที่สุดอยู่ตลอดเวลา ดังนั้นผมจึงเขียนบทความอีกชิ้นหนึ่ง "หน้าจอคือ API" ซึ่งเป็นกรณีสำหรับการใช้คอมพิวเตอร์และเหตุผลที่มันเป็นอนาคตของโมเดล AI
พื้นที่นี้ไม่ค่อยมีการรายงานเนื่องจากสองเหตุผล:
ผมต้องการเปลี่ยนแปลงสิ่งนั้น
ผมมักจะอ่านงานวิจัยจำนวนมากและพูดคุยกับเพื่อนร่วมงานในอุตสาหกรรมเกี่ยวกับความคิดของพวกเขาในหัวข้อนั้น นอกจากนั้น ผมใช้เวลามากในการอ่านบทความโดยบล็อกเกอร์ที่ยอดเยี่ยมเช่น PG ดังนั้นผมมักจะได้รับแรงบันดาลใจมากมายจากคนอื่นในงานเขียนของผม
การหาเวลานั่งลงและถ่ายทอดประสบการณ์ชีวิตของผมออกมาเป็นคำพูด
การแก้ปัญหาที่ยากขึ้นกับคนเก่งๆ เรียนรู้จากคนเหล่านั้น และแบ่งปันประสบการณ์ของผม
การดูหนัง! หนังที่ผมชอบตอนนี้คือ Catch Me If You Can (2002)
ผมชอบการปีนผาเพราะมันทำให้ผมรู้สึกเหมือนผมเป็นตัวแทนการใช้คอมพิวเตอร์ของมนุษย์ที่กำลังโต้ตอบกับกำแพงปีนผา ผมล้อเล่นนะ ผมคิดว่าการปีนผาสนุกมากเพราะมันช่วยให้ผมไม่ต้องคิดถึงงานและรวบรวมความคิดของผม
ผมกำลังเขียนบทความอีกชิ้นเกี่ยวกับโครงสร้างพื้นฐานสภาพแวดล้อม RL!
ผมคิดว่าโครงสร้างการตรวจสอบนั้นยอดเยี่ยม และเป็นสถานที่ที่ดีสำหรับผมในการนำเสนอความคิดของผมต่อผู้อ่านทางเทคนิค
ผมรักการเขียน ขอบคุณ HackerNoon!


