Character.ai เปิดเผยเทคนิคที่มีประสิทธิภาพสำหรับการฝึกอบรมล่วงหน้าขนาดใหญ่

Tony Kim
23 ธ.ค. 2568 21:56

Character.ai เปิดเผยวิธีการใหม่ในการเพิ่มประสิทธิภาพการฝึกอบรมขนาดใหญ่ โดยเน้นเทคนิคอย่าง Squinch, dynamic clamping และ Gumbel Softmax เพื่อเพิ่มประสิทธิภาพในการฝึกอบรมโมเดล AI

Character.ai ซึ่งเป็นผู้เล่นที่มีชื่อเสียงในพื้นที่ AI เพิ่งแบ่งปันข้อมูลเชิงลึกเกี่ยวกับความพยายามในช่วงแรกในการเพิ่มประสิทธิภาพการฝึกอบรม transformer ขนาดใหญ่ บริษัทซึ่งได้เปลี่ยนโฟกัสไปที่โมเดลโอเพนซอร์สในเวลาต่อมา เดิมได้สำรวจเทคนิคต่างๆ เพื่อเพิ่มประสิทธิภาพและความเร็วในการฝึกอบรม ตามที่ระบุไว้ใน Character.AI Blog

การบีบอัดแกรเดียนต์: Squinch

หนึ่งในนวัตกรรมหลักที่เน้นในความพยายามของ Character.ai คืออัลกอริทึมการบีบอัดแกรเดียนต์ที่เรียกว่า Squinch พัฒนาโดยผู้ร่วมก่อตั้ง Noam Shazeer เทคนิคการบีบอัด 6 บิตนี้ได้รับการออกแบบมาเพื่อลดแบนด์วิธการสื่อสารอย่างมากระหว่างการฝึกอบรมแบบกระจาย ในขณะเดียวกันก็รักษาความแม่นยำของโมเดล อัลกอริทึมบีบอัดแกรเดียนต์อย่างมีประสิทธิภาพเป็น 6 บิตต่อองค์ประกอบ เพิ่มประสิทธิภาพการใช้แบนด์วิธของคลัสเตอร์การฝึกอบรม

การปรับค่าความแม่นยำ: Attention Z-Reg

Character.ai ยังได้พัฒนา Attention Z-Reg ซึ่งเป็นวิธีการปรับค่าที่ใช้กับ attention logits เพื่อให้แน่ใจว่ามีเสถียรภาพเชิงตัวเลข เทคนิคนี้ช่วยรักษาความแม่นยำของการแสดง bfloat16 ซึ่งมีความสำคัญต่อการเพิ่มประสิทธิภาพการฝึกอบรมโมเดลขนาดใหญ่

เสถียรภาพการควอนไทซ์: Dynamic Clamping

Dynamic Clamping เป็นอีกหนึ่งเทคนิคที่ใช้เพื่อเพิ่มเสถียรภาพของการควอนไทซ์ มันป้องกันไม่ให้ค่าการกระตุ้นขนาดเล็กยุบลงเป็นศูนย์โดยการคำนวณช่วง clamping แบบไดนามิกตามค่ารากที่สองของค่าเฉลี่ยกำลังสองของน้ำหนักอินพุต วิธีนี้ปรับปรุงเสถียรภาพการฝึกอบรมโดยการลดข้อผิดพลาดในการควอนไทซ์

Attention API ที่มีประสิทธิภาพ: Visibility Mask

การแนะนำ Visibility Mask ซึ่งเป็นเครื่องมือสำหรับแสดงความสัมพันธ์ระหว่างโทเค็นระหว่างการฝึกอบรมและการอนุมาน ได้ปรับปรุงประสิทธิภาพของระบบการฝึกอบรม API นี้ช่วยจัดการช่วง attention ภายในแบตช์ รองรับความสัมพันธ์เอกสารแบบโครงสร้างต้นไม้และ bidirectional attention

การเพิ่มประสิทธิภาพการกลั่น: Gumbel Softmax

ในด้านการกลั่นโมเดล Character.ai ได้ใช้ประโยชน์จากเทคนิค Gumbel Softmax เพื่อลดต้นทุนการจัดเก็บและแบนด์วิธในขณะที่รักษาความถูกต้องของโมเดลครู แนวทางนี้เกี่ยวข้องกับการสุ่มตัวอย่างชุดย่อยของผลลัพธ์โมเดลครู โดยรักษาค่าเป้าหมายแบบนิ่มไว้เพื่อการฝึกอบรมโมเดลนักเรียนที่มีประสิทธิภาพมากขึ้น

ความพยายามของ Character.ai ในการเพิ่มประสิทธิภาพการฝึกอบรมล่วงหน้าได้ปูทางไปสู่การฝึกอบรมโมเดล AI ที่มีประสิทธิภาพมากขึ้น แม้ว่าบริษัทจะเปลี่ยนไปใช้การเรียนรู้เสริมแรงหลังการฝึกอบรมสำหรับโมเดลโอเพนซอร์ส เทคนิคเหล่านี้รวมถึง Squinch และ Gumbel Softmax เน้นย้ำถึงความมุ่งมั่นของบริษัทในการพัฒนาประสิทธิภาพและความสามารถในการขยายขนาดของ AI

แหล่งที่มาของภาพ: Shutterstock

แหล่งที่มา: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining