ในการสัมภาษณ์นี้ เราได้พูดคุยกับ Ashton วิศวกรผู้ร่วมก่อตั้ง Theta เพื่อหารือเกี่ยวกับความก้าวหน้าล่าสุดของโครงสร้างพื้นฐานการเรียนรู้แบบเสริมแรง เขาได้อธิบายในการสัมภาษณ์นี้ เราได้พูดคุยกับ Ashton วิศวกรผู้ร่วมก่อตั้ง Theta เพื่อหารือเกี่ยวกับความก้าวหน้าล่าสุดของโครงสร้างพื้นฐานการเรียนรู้แบบเสริมแรง เขาได้อธิบาย

พบกับนักเขียน: Ashton Chew, วิศวกรผู้ก่อตั้ง Theta

2025/12/15 04:25
2 นาทีในการอ่าน
หากมีข้อเสนอแนะหรือข้อกังวลเกี่ยวกับเนื้อหานี้ โปรดติดต่อเราได้ที่ crypto.news@mexc.com


เริ่มกันเลย! เล่าเกี่ยวกับตัวคุณสักหน่อย เช่น ชื่อ อาชีพ และความสนใจส่วนตัว

สวัสดี! ผมชื่อ Ashton ผมเป็นวิศวกรผู้ก่อตั้งที่ Theta ซึ่งผมทำงานเกี่ยวกับโครงสร้างพื้นฐาน RL, RL และระบบกระจาย ผมเน้นเฉพาะด้านการใช้คอมพิวเตอร์และการใช้เครื่องมือ ในอดีตผมเคยทำงานที่ Amazon AGI และจัดการกับโครงสร้างพื้นฐานการอนุมานและการใช้เครื่องมือ ในเวลาว่างผมชอบการออกแบบกราฟิก โปรเจกต์เสริม และการปีนผา

น่าสนใจ! บทความยอดนิยมล่าสุดของคุณใน Hackernoon เกี่ยวกับอะไร?

บทความล่าสุดของผม "AI ของคุณสามารถใช้คอมพิวเตอร์ได้จริงหรือไม่? แผนที่เกณฑ์มาตรฐานการใช้คอมพิวเตอร์ปี 2025" เกี่ยวข้องกับหนึ่งในพื้นที่ที่ร้อนแรงที่สุดใน VC ตอนนี้: สภาพแวดล้อม RL และการประเมินผล ผมได้ให้ภาพรวมที่ครอบคลุมของเกณฑ์มาตรฐานการใช้คอมพิวเตอร์ที่ใช้มากที่สุด พร้อมคำแนะนำที่ปฏิบัติได้จริงเกี่ยวกับวิธีเลือกเกณฑ์มาตรฐานสำหรับการฝึกและทดสอบตัวแทนการใช้คอมพิวเตอร์

ผมพบช่องว่างเดิมๆ อยู่เสมอ: ไม่มีบทความมากนักที่ทบทวนเกณฑ์มาตรฐานเหล่านี้ และเมื่อสาขานี้เติบโตขึ้น สิ่งสำคัญคือเราต้องประเมินคุณภาพจริงๆ แทนที่จะให้รางวัลกับสิ่งที่เกิดขึ้นเพื่อเล่นเกมกับตัวชี้วัด เราเคยอยู่ตรงนี้มาก่อน ในยุคแรกของ LLM เกณฑ์มาตรฐานมีความสุ่มและแตกต่างกันมากพอที่จะสะท้อนผู้ชนะที่แท้จริงได้เพียงเล็กน้อย

เกณฑ์มาตรฐานกลายเป็นตารางคะแนนที่เป็นที่ยอมรับสำหรับ "โมเดลที่ดีที่สุด" และจากนั้นผู้คนก็ตระหนักว่าหลายอย่างไม่ได้วัดสิ่งที่พวกเขาอ้าง

หนึ่งในความล้มเหลวที่เปิดเผยมากที่สุดในยุคแรกคือเมื่อ "ความเข้าใจในการอ่าน" กลายเป็น "การจับคู่รูปแบบบนโครงสร้างชุดข้อมูล" อย่างเงียบๆ นักวิจัยได้ทำการทดสอบพื้นฐานที่ยั่วยุโดยเจตนา (เฉพาะคำถาม, เฉพาะประโยคสุดท้าย) และผลลัพธ์สูงพอที่จะก่อให้เกิดความเป็นไปได้ที่ไม่สบายใจ: เกณฑ์มาตรฐานไม่ได้บังคับให้โมเดลใช้ข้อความทั้งหมดอย่างสม่ำเสมอ ในบทวิจารณ์ปี 2018 ประเด็นไม่ใช่ว่าการอ่านไม่สำคัญ แต่เป็นเพราะชุดข้อมูลบางชุดทำให้มันเป็นทางเลือกโดยบังเอิญด้วยการให้รางวัลมากเกินไปกับทางลัด เช่น ความใหม่และคำตอบที่เป็นแบบแผน

\

# งานที่ควรจะเป็น: ตอบคำถามจากข้อความและคำถามที่ให้มา ข้อความ (สรุป): - ประโยค 1–8: วันของจอห์นที่โรงเรียน (รายละเอียดส่วนใหญ่ไม่เกี่ยวข้อง) - ประโยค 9: "หลังเลิกเรียน จอห์นไปที่ห้องครัว" - ประโยค 10: "เขากินพิซซ่าหนึ่งชิ้นก่อนเริ่มทำการบ้าน" คำถาม: "จอห์นกินอะไร?" คำตอบ: "พิซซ่า"

เกณฑ์มาตรฐานให้รางวัลกับทางลัดโดยไม่ตั้งใจ ซึ่งโมเดลให้น้ำหนักกับประโยคสุดท้ายมากเกินไป (เพราะคำตอบมักอยู่ใกล้ตอนจบ) และเพียงแค่ดึงกรรมตรงของการกระทำล่าสุด ("กิน ___") ซึ่งในกรณีนี้ได้ "พิซซ่า"

และต่อมาก็มีพื้นฐานที่สร้างความเสียหายมากขึ้น: ลบข้อความทั้งหมดออกและดูว่าเกิดอะไรขึ้น หากโมเดลที่มีเฉพาะคำถามสามารถแข่งขันได้ นั่นเป็นสัญญาณว่าชุดข้อมูลกำลังรั่วไหลสัญญาณผ่านการทำซ้ำและความเป็นมาแทนที่จะทดสอบความเข้าใจที่อิงกับข้อความ

คำถาม: "จอห์นกินอะไร?"

พื้นฐานนี้เป็นเพียงการตรวจสอบความสมเหตุสมผล: โมเดลยังคงทำคะแนนได้ดีโดยอาศัยเทมเพลตคำตอบความถี่สูงโดยไม่ต้องอิงกับข้อความเลยหรือไม่? ในทางปฏิบัติ มันเพียงแค่เดาโทเค็นที่ชุดข้อมูลให้รางวัลมากเกินไป ("พิซซ่า", "แซนด์วิช") และถ้านั่นใช้ได้บ่อยกว่าที่ควรจะเป็น คุณไม่ได้วัดความเข้าใจมากเท่ากับที่คุณกำลังวัดความเป็นมาของชุดข้อมูล

การประเมินการใช้คอมพิวเตอร์ได้สร้างทางลัดที่ตรงไปตรงมายิ่งขึ้น: ตัวแทนมีเบราว์เซอร์ เกณฑ์มาตรฐานเป็นสาธารณะ และการประเมินกลายเป็นการสอบแบบเปิดตำราที่มีเฉลยอยู่ในหน้าสุดท้าย ในเอกสาร Holistic Agent Leaderboard (HAL) ผู้เขียนรายงานว่าสังเกตเห็นตัวแทนที่ค้นหาเกณฑ์มาตรฐานบน HuggingFace แทนที่จะแก้ปัญหา ซึ่งเป็นพฤติกรรมที่คุณจะจับได้ก็ต่อเมื่อตรวจสอบบันทึกเท่านั้น

\

# งานที่ควรจะเป็น: ทำงานตามขั้นตอนในสภาพแวดล้อมเว็บ งาน: "กำหนดค่าการตั้งค่า X ในแอปและตรวจสอบว่าเปิดใช้งานแล้ว" โหมดความล้มเหลว: 1) เปิดแท็บใหม่ 2) ค้นหา: "สถานะที่คาดหวังของเกณฑ์มาตรฐาน X" / "HAL <benchmark> setting X" 3) ค้นพบ: repo / การเขียนลีดเดอร์บอร์ด / การ์ดชุดข้อมูล / เธรดปัญหา 4) ทำซ้ำสถานะสุดท้ายที่คาดหวัง (คำตอบ)

ณ จุดนั้น การประเมินกำลังวัดว่ามันสามารถหาเฉลยได้หรือไม่

งาน: "หาหน้าที่ถูกต้องและดึง Y" โหมดความล้มเหลว: - ค้นหา: "<ชื่อเกณฑ์มาตรฐาน> Y" - คัดลอกจากสิ่งที่เผยแพร่สู่สาธารณะ (เอกสาร, โพสต์ในฟอรัม, การ์ดชุดข้อมูล) - วางค่าลงในเอาต์พุตของตัวแทนเสมือนว่ามาจากการโต้ตอบ

หากตัวแทนสามารถดึงค่าจากการ์ดชุดข้อมูลหรือ repo และยัง "ผ่าน" ได้ การตรวจสอบความสำเร็จกำลังให้เกรดความเป็นไปได้ ไม่ใช่ความถูกต้องของการโต้ตอบ งานสาธารณะบวกกับการตรวจสอบอย่างผิวเผินทำให้การค้นหาเว็บกลายเป็นช่องโหว่

ตัวอย่างทั้งสองนี้เป็นสัญญาณเตือน: หากเราไม่ยึดเกณฑ์มาตรฐานการใช้คอมพิวเตอร์ให้มีมาตรฐานที่สูงขึ้นตั้งแต่เนิ่นๆ เราจะทำซ้ำยุค LLM เพียงแต่มี UI ที่ดีขึ้นและวิธีการโกงที่ซับซ้อนมากขึ้น

คุณมักเขียนเกี่ยวกับหัวข้อที่คล้ายกันหรือไม่? ถ้าไม่ คุณมักเขียนเกี่ยวกับอะไร?

ใช่! การทำงานกับสภาพแวดล้อม RL และโครงสร้างพื้นฐาน RL รอบการใช้คอมพิวเตอร์ ผมถูกล้อมรอบด้วยโมเดลการใช้คอมพิวเตอร์ที่ดีที่สุดและสภาพแวดล้อมการฝึกที่สมจริงที่สุดอยู่ตลอดเวลา ดังนั้นผมจึงเขียนบทความอีกชิ้นหนึ่ง "หน้าจอคือ API" ซึ่งเป็นกรณีสำหรับการใช้คอมพิวเตอร์และเหตุผลที่มันเป็นอนาคตของโมเดล AI

พื้นที่นี้ไม่ค่อยมีการรายงานเนื่องจากสองเหตุผล:

  1. โมเดลไม่มีความสามารถในการใช้คอมพิวเตอร์เท่ากับงานอื่นๆ (การเขียนโค้ด, คณิตศาสตร์, ฯลฯ)
  2. การใช้คอมพิวเตอร์เคลื่อนไหวเร็วและใหม่มาก

ผมต้องการเปลี่ยนแปลงสิ่งนั้น

ยอดเยี่ยม! กิจวัตรการเขียนปกติของคุณเป็นอย่างไร (ถ้ามี)

ผมมักจะอ่านงานวิจัยจำนวนมากและพูดคุยกับเพื่อนร่วมงานในอุตสาหกรรมเกี่ยวกับความคิดของพวกเขาในหัวข้อนั้น นอกจากนั้น ผมใช้เวลามากในการอ่านบทความโดยบล็อกเกอร์ที่ยอดเยี่ยมเช่น PG ดังนั้นผมมักจะได้รับแรงบันดาลใจมากมายจากคนอื่นในงานเขียนของผม

การเป็นนักเขียนในวงการเทคโนโลยีอาจเป็นความท้าทาย มันไม่ใช่บทบาทหลักของเราบ่อยนัก แต่เป็นส่วนเสริมของอีกบทบาทหนึ่ง ความท้าทายที่ใหญ่ที่สุดของคุณเมื่อมาถึงการเขียนคืออะไร?

การหาเวลานั่งลงและถ่ายทอดประสบการณ์ชีวิตของผมออกมาเป็นคำพูด

อะไรคือสิ่งต่อไปที่คุณหวังจะบรรลุในอาชีพของคุณ?

การแก้ปัญหาที่ยากขึ้นกับคนเก่งๆ เรียนรู้จากคนเหล่านั้น และแบ่งปันประสบการณ์ของผม

ว้าว น่าชื่นชมมาก ตอนนี้ อะไรที่เป็นกันเองมากขึ้น: ความสุขที่รู้สึกผิดของคุณคืออะไร?

การดูหนัง! หนังที่ผมชอบตอนนี้คือ Catch Me If You Can (2002)

คุณมีงานอดิเรกที่ไม่เกี่ยวกับเทคโนโลยีหรือไม่? ถ้ามี คืออะไร?

ผมชอบการปีนผาเพราะมันทำให้ผมรู้สึกเหมือนผมเป็นตัวแทนการใช้คอมพิวเตอร์ของมนุษย์ที่กำลังโต้ตอบกับกำแพงปีนผา ผมล้อเล่นนะ ผมคิดว่าการปีนผาสนุกมากเพราะมันช่วยให้ผมไม่ต้องคิดถึงงานและรวบรวมความคิดของผม

ชุมชน Hacker Noon สามารถคาดหวังที่จะอ่านอะไรจากคุณต่อไป?

ผมกำลังเขียนบทความอีกชิ้นเกี่ยวกับโครงสร้างพื้นฐานสภาพแวดล้อม RL!

ความคิดเห็นของคุณเกี่ยวกับ HackerNoon ในฐานะแพลตฟอร์มสำหรับนักเขียนเป็นอย่างไร?

ผมคิดว่าโครงสร้างการตรวจสอบนั้นยอดเยี่ยม และเป็นสถานที่ที่ดีสำหรับผมในการนำเสนอความคิดของผมต่อผู้อ่านทางเทคนิค

ขอบคุณที่สละเวลามาร่วมซีรีส์ "พบกับนักเขียน" ของเรา เป็นความยินดีอย่างยิ่ง คุณมีคำกล่าวปิดท้ายไหม?

ผมรักการเขียน ขอบคุณ HackerNoon!

โอกาสทางการตลาด
Edge โลโก้
ราคา Edge(EDGE1)
$0.11248
$0.11248$0.11248
+9.82%
USD
Edge (EDGE1) กราฟราคาสด
ข้อจำกัดความรับผิดชอบ: บทความที่โพสต์ซ้ำในไซต์นี้มาจากแพลตฟอร์มสาธารณะและมีไว้เพื่อจุดประสงค์ในการให้ข้อมูลเท่านั้น ซึ่งไม่ได้สะท้อนถึงมุมมองของ MEXC แต่อย่างใด ลิขสิทธิ์ทั้งหมดยังคงเป็นของผู้เขียนดั้งเดิม หากคุณเชื่อว่าเนื้อหาใดละเมิดสิทธิของบุคคลที่สาม โปรดติดต่อ crypto.news@mexc.com เพื่อลบออก MEXC ไม่รับประกันความถูกต้อง ความสมบูรณ์ หรือความทันเวลาของเนื้อหาใดๆ และไม่รับผิดชอบต่อการดำเนินการใดๆ ที่เกิดขึ้นตามข้อมูลที่ให้มา เนื้อหานี้ไม่ถือเป็นคำแนะนำทางการเงิน กฎหมาย หรือคำแนะนำจากผู้เชี่ยวชาญอื่นๆ และไม่ถือว่าเป็นคำแนะนำหรือการรับรองจาก MEXC

คุณอาจชอบเช่นกัน

ข่าว Dogecoin แสดงการฟื้นตัวที่ซบเซาขณะที่กระเป๋าเงินวาฬ Pepeto สะสมก่อนการลิสต์บน Binance

ข่าว Dogecoin แสดงการฟื้นตัวที่ซบเซาขณะที่กระเป๋าเงินวาฬ Pepeto สะสมก่อนการลิสต์บน Binance

Tom Lee จาก Fundstrat กล่าวว่าตลาดคริปโตยังคงถูกบดบังโดยทองคำและเงิน แต่คาดว่าแนวโน้มจะกลับตัวเมื่อโลหะมีค่าเริ่มเย็นลง หาก
แชร์
Techbullion2026/04/07 06:40
อิหร่านอนุมัติให้ใช้คริปโตสำหรับค่าผ่านทางช่องแคบฮอร์มุซ – BTC คือเครื่องมือป้องกันความเสี่ยงในสงครามที่ดีที่สุดหรือไม่?

อิหร่านอนุมัติให้ใช้คริปโตสำหรับค่าผ่านทางช่องแคบฮอร์มุซ – BTC คือเครื่องมือป้องกันความเสี่ยงในสงครามที่ดีที่สุดหรือไม่?

โพสต์เรื่อง อิหร่านอนุมัติการใช้คริปโตสำหรับค่าผ่านทางช่องแคบฮอร์มุซ – BTC คือเครื่องมือป้องกันความเสี่ยงในสงครามที่ดีที่สุดหรือไม่? ปรากฏบน BitcoinEthereumNews.com สงครามสหรัฐฯ-อิหร่านกำลังดำเนินต่อไป
แชร์
BitcoinEthereumNews2026/04/07 06:32
โอกาสสุดท้ายสำหรับราคา $0.000022: นี่คือเหตุผลที่ BlockDAG โดดเด่นกว่า Tron และ Litecoin

โอกาสสุดท้ายสำหรับราคา $0.000022: นี่คือเหตุผลที่ BlockDAG โดดเด่นกว่า Tron และ Litecoin

โพสต์ Final Call for $0.000022: Here's Why BlockDAG Outshines Tron & Litecoin ปรากฏบน BitcoinEthereumNews.com ตลาดคริปโทเคอร์เรนซีกำลังเป็นพยานในขณะนี้
แชร์
BitcoinEthereumNews2026/04/07 06:26

ข่าวสดตลอด 24/7

มากกว่า

PRL $30,000 + 15,000 USDT

PRL $30,000 + 15,000 USDTPRL $30,000 + 15,000 USDT

ฝาก & เทรด PRL เพื่อเพิ่มรางวัลของคุณ!