แลกเปลี่ยนDEX+

ซื้อคริปโต ตลาด สปอต ฟิวเจอร์ส500X Earn กิจกรรม

เพิ่มเติม

แจกทองคำแท่งและ BTC2000g

ในการสัมภาษณ์นี้ เราได้พูดคุยกับ Ashton วิศวกรผู้ร่วมก่อตั้ง Theta เพื่อหารือเกี่ยวกับความก้าวหน้าล่าสุดของโครงสร้างพื้นฐานการเรียนรู้แบบเสริมแรง เขาได้อธิบายในการสัมภาษณ์นี้ เราได้พูดคุยกับ Ashton วิศวกรผู้ร่วมก่อตั้ง Theta เพื่อหารือเกี่ยวกับความก้าวหน้าล่าสุดของโครงสร้างพื้นฐานการเรียนรู้แบบเสริมแรง เขาได้อธิบาย

พบกับนักเขียน: Ashton Chew, วิศวกรผู้ก่อตั้ง Theta

โดย: Hackernoon

2025/12/15 04:25

แชร์

WHY$0.00000001527-11.58%

เริ่มกันเลย! เล่าเกี่ยวกับตัวคุณสักหน่อย เช่น ชื่อ อาชีพ และความสนใจส่วนตัว

สวัสดี! ผมชื่อ Ashton ผมเป็นวิศวกรผู้ก่อตั้งที่ Theta ซึ่งผมทำงานเกี่ยวกับโครงสร้างพื้นฐาน RL, RL และระบบกระจาย ผมเน้นเฉพาะด้านการใช้คอมพิวเตอร์และการใช้เครื่องมือ ในอดีตผมเคยทำงานที่ Amazon AGI และจัดการกับโครงสร้างพื้นฐานการอนุมานและการใช้เครื่องมือ ในเวลาว่างผมชอบการออกแบบกราฟิก โปรเจกต์เสริม และการปีนผา

น่าสนใจ! บทความยอดนิยมล่าสุดของคุณใน Hackernoon เกี่ยวกับอะไร?

บทความล่าสุดของผม "AI ของคุณสามารถใช้คอมพิวเตอร์ได้จริงหรือไม่? แผนที่เกณฑ์มาตรฐานการใช้คอมพิวเตอร์ปี 2025" เกี่ยวข้องกับหนึ่งในพื้นที่ที่ร้อนแรงที่สุดใน VC ตอนนี้: สภาพแวดล้อม RL และการประเมินผล ผมได้ให้ภาพรวมที่ครอบคลุมของเกณฑ์มาตรฐานการใช้คอมพิวเตอร์ที่ใช้มากที่สุด พร้อมคำแนะนำที่ปฏิบัติได้จริงเกี่ยวกับวิธีเลือกเกณฑ์มาตรฐานสำหรับการฝึกและทดสอบตัวแทนการใช้คอมพิวเตอร์

ผมพบช่องว่างเดิมๆ อยู่เสมอ: ไม่มีบทความมากนักที่ทบทวนเกณฑ์มาตรฐานเหล่านี้ และเมื่อสาขานี้เติบโตขึ้น สิ่งสำคัญคือเราต้องประเมินคุณภาพจริงๆ แทนที่จะให้รางวัลกับสิ่งที่เกิดขึ้นเพื่อเล่นเกมกับตัวชี้วัด เราเคยอยู่ตรงนี้มาก่อน ในยุคแรกของ LLM เกณฑ์มาตรฐานมีความสุ่มและแตกต่างกันมากพอที่จะสะท้อนผู้ชนะที่แท้จริงได้เพียงเล็กน้อย

เกณฑ์มาตรฐานกลายเป็นตารางคะแนนที่เป็นที่ยอมรับสำหรับ "โมเดลที่ดีที่สุด" และจากนั้นผู้คนก็ตระหนักว่าหลายอย่างไม่ได้วัดสิ่งที่พวกเขาอ้าง

หนึ่งในความล้มเหลวที่เปิดเผยมากที่สุดในยุคแรกคือเมื่อ "ความเข้าใจในการอ่าน" กลายเป็น "การจับคู่รูปแบบบนโครงสร้างชุดข้อมูล" อย่างเงียบๆ นักวิจัยได้ทำการทดสอบพื้นฐานที่ยั่วยุโดยเจตนา (เฉพาะคำถาม, เฉพาะประโยคสุดท้าย) และผลลัพธ์สูงพอที่จะก่อให้เกิดความเป็นไปได้ที่ไม่สบายใจ: เกณฑ์มาตรฐานไม่ได้บังคับให้โมเดลใช้ข้อความทั้งหมดอย่างสม่ำเสมอ ในบทวิจารณ์ปี 2018 ประเด็นไม่ใช่ว่าการอ่านไม่สำคัญ แต่เป็นเพราะชุดข้อมูลบางชุดทำให้มันเป็นทางเลือกโดยบังเอิญด้วยการให้รางวัลมากเกินไปกับทางลัด เช่น ความใหม่และคำตอบที่เป็นแบบแผน

# งานที่ควรจะเป็น: ตอบคำถามจากข้อความและคำถามที่ให้มา ข้อความ (สรุป): - ประโยค 1–8: วันของจอห์นที่โรงเรียน (รายละเอียดส่วนใหญ่ไม่เกี่ยวข้อง) - ประโยค 9: "หลังเลิกเรียน จอห์นไปที่ห้องครัว" - ประโยค 10: "เขากินพิซซ่าหนึ่งชิ้นก่อนเริ่มทำการบ้าน" คำถาม: "จอห์นกินอะไร?" คำตอบ: "พิซซ่า"

เกณฑ์มาตรฐานให้รางวัลกับทางลัดโดยไม่ตั้งใจ ซึ่งโมเดลให้น้ำหนักกับประโยคสุดท้ายมากเกินไป (เพราะคำตอบมักอยู่ใกล้ตอนจบ) และเพียงแค่ดึงกรรมตรงของการกระทำล่าสุด ("กิน ___") ซึ่งในกรณีนี้ได้ "พิซซ่า"

และต่อมาก็มีพื้นฐานที่สร้างความเสียหายมากขึ้น: ลบข้อความทั้งหมดออกและดูว่าเกิดอะไรขึ้น หากโมเดลที่มีเฉพาะคำถามสามารถแข่งขันได้ นั่นเป็นสัญญาณว่าชุดข้อมูลกำลังรั่วไหลสัญญาณผ่านการทำซ้ำและความเป็นมาแทนที่จะทดสอบความเข้าใจที่อิงกับข้อความ

คำถาม: "จอห์นกินอะไร?"

พื้นฐานนี้เป็นเพียงการตรวจสอบความสมเหตุสมผล: โมเดลยังคงทำคะแนนได้ดีโดยอาศัยเทมเพลตคำตอบความถี่สูงโดยไม่ต้องอิงกับข้อความเลยหรือไม่? ในทางปฏิบัติ มันเพียงแค่เดาโทเค็นที่ชุดข้อมูลให้รางวัลมากเกินไป ("พิซซ่า", "แซนด์วิช") และถ้านั่นใช้ได้บ่อยกว่าที่ควรจะเป็น คุณไม่ได้วัดความเข้าใจมากเท่ากับที่คุณกำลังวัดความเป็นมาของชุดข้อมูล

การประเมินการใช้คอมพิวเตอร์ได้สร้างทางลัดที่ตรงไปตรงมายิ่งขึ้น: ตัวแทนมีเบราว์เซอร์ เกณฑ์มาตรฐานเป็นสาธารณะ และการประเมินกลายเป็นการสอบแบบเปิดตำราที่มีเฉลยอยู่ในหน้าสุดท้าย ในเอกสาร Holistic Agent Leaderboard (HAL) ผู้เขียนรายงานว่าสังเกตเห็นตัวแทนที่ค้นหาเกณฑ์มาตรฐานบน HuggingFace แทนที่จะแก้ปัญหา ซึ่งเป็นพฤติกรรมที่คุณจะจับได้ก็ต่อเมื่อตรวจสอบบันทึกเท่านั้น

# งานที่ควรจะเป็น: ทำงานตามขั้นตอนในสภาพแวดล้อมเว็บ งาน: "กำหนดค่าการตั้งค่า X ในแอปและตรวจสอบว่าเปิดใช้งานแล้ว" โหมดความล้มเหลว: 1) เปิดแท็บใหม่ 2) ค้นหา: "สถานะที่คาดหวังของเกณฑ์มาตรฐาน X" / "HAL <benchmark> setting X" 3) ค้นพบ: repo / การเขียนลีดเดอร์บอร์ด / การ์ดชุดข้อมูล / เธรดปัญหา 4) ทำซ้ำสถานะสุดท้ายที่คาดหวัง (คำตอบ)

ณ จุดนั้น การประเมินกำลังวัดว่ามันสามารถหาเฉลยได้หรือไม่

งาน: "หาหน้าที่ถูกต้องและดึง Y" โหมดความล้มเหลว: - ค้นหา: "<ชื่อเกณฑ์มาตรฐาน> Y" - คัดลอกจากสิ่งที่เผยแพร่สู่สาธารณะ (เอกสาร, โพสต์ในฟอรัม, การ์ดชุดข้อมูล) - วางค่าลงในเอาต์พุตของตัวแทนเสมือนว่ามาจากการโต้ตอบ

หากตัวแทนสามารถดึงค่าจากการ์ดชุดข้อมูลหรือ repo และยัง "ผ่าน" ได้ การตรวจสอบความสำเร็จกำลังให้เกรดความเป็นไปได้ ไม่ใช่ความถูกต้องของการโต้ตอบ งานสาธารณะบวกกับการตรวจสอบอย่างผิวเผินทำให้การค้นหาเว็บกลายเป็นช่องโหว่

ตัวอย่างทั้งสองนี้เป็นสัญญาณเตือน: หากเราไม่ยึดเกณฑ์มาตรฐานการใช้คอมพิวเตอร์ให้มีมาตรฐานที่สูงขึ้นตั้งแต่เนิ่นๆ เราจะทำซ้ำยุค LLM เพียงแต่มี UI ที่ดีขึ้นและวิธีการโกงที่ซับซ้อนมากขึ้น

คุณมักเขียนเกี่ยวกับหัวข้อที่คล้ายกันหรือไม่? ถ้าไม่ คุณมักเขียนเกี่ยวกับอะไร?

ใช่! การทำงานกับสภาพแวดล้อม RL และโครงสร้างพื้นฐาน RL รอบการใช้คอมพิวเตอร์ ผมถูกล้อมรอบด้วยโมเดลการใช้คอมพิวเตอร์ที่ดีที่สุดและสภาพแวดล้อมการฝึกที่สมจริงที่สุดอยู่ตลอดเวลา ดังนั้นผมจึงเขียนบทความอีกชิ้นหนึ่ง "หน้าจอคือ API" ซึ่งเป็นกรณีสำหรับการใช้คอมพิวเตอร์และเหตุผลที่มันเป็นอนาคตของโมเดล AI

พื้นที่นี้ไม่ค่อยมีการรายงานเนื่องจากสองเหตุผล:

โมเดลไม่มีความสามารถในการใช้คอมพิวเตอร์เท่ากับงานอื่นๆ (การเขียนโค้ด, คณิตศาสตร์, ฯลฯ)
การใช้คอมพิวเตอร์เคลื่อนไหวเร็วและใหม่มาก

ผมต้องการเปลี่ยนแปลงสิ่งนั้น

ยอดเยี่ยม! กิจวัตรการเขียนปกติของคุณเป็นอย่างไร (ถ้ามี)

ผมมักจะอ่านงานวิจัยจำนวนมากและพูดคุยกับเพื่อนร่วมงานในอุตสาหกรรมเกี่ยวกับความคิดของพวกเขาในหัวข้อนั้น นอกจากนั้น ผมใช้เวลามากในการอ่านบทความโดยบล็อกเกอร์ที่ยอดเยี่ยมเช่น PG ดังนั้นผมมักจะได้รับแรงบันดาลใจมากมายจากคนอื่นในงานเขียนของผม

การเป็นนักเขียนในวงการเทคโนโลยีอาจเป็นความท้าทาย มันไม่ใช่บทบาทหลักของเราบ่อยนัก แต่เป็นส่วนเสริมของอีกบทบาทหนึ่ง ความท้าทายที่ใหญ่ที่สุดของคุณเมื่อมาถึงการเขียนคืออะไร?

การหาเวลานั่งลงและถ่ายทอดประสบการณ์ชีวิตของผมออกมาเป็นคำพูด

อะไรคือสิ่งต่อไปที่คุณหวังจะบรรลุในอาชีพของคุณ?

การแก้ปัญหาที่ยากขึ้นกับคนเก่งๆ เรียนรู้จากคนเหล่านั้น และแบ่งปันประสบการณ์ของผม

ว้าว น่าชื่นชมมาก ตอนนี้ อะไรที่เป็นกันเองมากขึ้น: ความสุขที่รู้สึกผิดของคุณคืออะไร?

การดูหนัง! หนังที่ผมชอบตอนนี้คือ Catch Me If You Can (2002)

คุณมีงานอดิเรกที่ไม่เกี่ยวกับเทคโนโลยีหรือไม่? ถ้ามี คืออะไร?

ผมชอบการปีนผาเพราะมันทำให้ผมรู้สึกเหมือนผมเป็นตัวแทนการใช้คอมพิวเตอร์ของมนุษย์ที่กำลังโต้ตอบกับกำแพงปีนผา ผมล้อเล่นนะ ผมคิดว่าการปีนผาสนุกมากเพราะมันช่วยให้ผมไม่ต้องคิดถึงงานและรวบรวมความคิดของผม

ชุมชน Hacker Noon สามารถคาดหวังที่จะอ่านอะไรจากคุณต่อไป?

ผมกำลังเขียนบทความอีกชิ้นเกี่ยวกับโครงสร้างพื้นฐานสภาพแวดล้อม RL!

ความคิดเห็นของคุณเกี่ยวกับ HackerNoon ในฐานะแพลตฟอร์มสำหรับนักเขียนเป็นอย่างไร?

ผมคิดว่าโครงสร้างการตรวจสอบนั้นยอดเยี่ยม และเป็นสถานที่ที่ดีสำหรับผมในการนำเสนอความคิดของผมต่อผู้อ่านทางเทคนิค

ขอบคุณที่สละเวลามาร่วมซีรีส์ "พบกับนักเขียน" ของเรา เป็นความยินดีอย่างยิ่ง คุณมีคำกล่าวปิดท้ายไหม?

ผมรักการเขียน ขอบคุณ HackerNoon!

โอกาสทางการตลาด

ราคา CATCH(CATCH)

$0.001958

$0.001958$0.001958

-16.32%

USD

CATCH (CATCH) กราฟราคาสด

ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ service@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC