องค์กรต่างๆ ใช้เวลาสองปีที่ผ่านมาในการแข่งขันนำ AI agents เข้าสู่เวิร์กโฟลว์จริง ตั้งแต่การสนับสนุนลูกค้าและการดำเนินงานแบ็กออฟฟิศ ไปจนถึงกระบวนการตัดสินใจที่หนักหน่วงในด้านการเงินและการปฏิบัติตามกฎระเบียบ ขณะนี้เมื่อระบบเหล่านั้นถูกบูรณาการเข้ากับเวิร์กโฟลว์จริงมากขึ้นเรื่อยๆ ปัญหาใหม่กำลังเกิดขึ้น: agents สามารถดึงข้อมูลได้ แต่มักประสบปัญหาในการให้เหตุผลที่สม่ำเสมอและอธิบายได้เมื่องานมีความซับซ้อน มีหลายขั้นตอน หรือมีความเสี่ยงสูง
วันนี้ ห้องปฏิบัติการ AI แบบโอเพนซอร์ส Sentient กำลังเปิดตัว Arena สภาพแวดล้อมระดับการผลิตแบบสดที่นักพัฒนา AI หลายพันคนทดสอบความเครียดของแนวทางต่างๆ ที่แข่งขันกันเพื่อแก้ปัญหาการให้เหตุผลที่ยากที่สุดขององค์กร กลุ่มแรกที่เข้าร่วมในระยะเริ่มต้นของ Arena ได้แก่ Founders Fund, Pantera และ Franklin Templeton (มีสินทรัพย์ภายใต้การบริหารมากกว่า $1.5T) — ซึ่งส่งสัญญาณความสนใจจากสถาบันในระยะเริ่มต้นต่อการประเมินโครงสร้างของ AI agents ก่อนการใช้งานจริง
"เมื่อบริษัทต่างๆ พยายามนำ AI agents ไปใช้ในงานวิจัย การดำเนินงาน และเวิร์กโฟลว์ที่เผชิญหน้ากับลูกค้า คำถามไม่ใช่ว่าระบบเหล่านี้มีประสิทธิภาพหรือไม่ ... แต่เป็นเรื่องของความน่าเชื่อถือในเวิร์กโฟลว์จริง" Julian Love, Managing Principal, Franklin Templeton Digital Assets กล่าว
Love เสริมว่าสภาพแวดล้อมที่มีโครงสร้างอย่าง Arena จะช่วยแยกแนวคิดที่มีแนวโน้มดีออกจากความสามารถที่พร้อมใช้งานจริง
"AI agents ไม่ใช่การทดลองภายในองค์กรอีกต่อไป พวกเขากำลังถูกนำไปใช้ในเวิร์กโฟลว์ที่สัมผัสกับลูกค้า เงิน และผลลัพธ์การดำเนินงาน" Himanshu Tyagi, ผู้ร่วมก่อตั้ง Sentient กล่าว "การเปลี่ยนแปลงนั้นเปลี่ยนสิ่งที่สำคัญ ไม่เพียงพอที่ระบบจะน่าประทับใจในการสาธิต องค์กรต้องการรู้ว่า agents สามารถให้เหตุผลได้อย่างน่าเชื่อถือในการผลิต ที่ซึ่งความล้มเหลวมีราคาแพง และความไว้วางใจเปราะบาง พวกเขาต้องการความสามารถในการเปรียบเทียบ ความสามารถในการทำซ้ำ และวิธีติดตามการปรับปรุงความน่าเชื่อถือเมื่อเวลาผ่านไป – ไม่ว่าพวกเขาจะใช้โมเดลหรือเครื่องมือใดอยู่ข้างใต้"
Arena จำลองความเป็นจริงที่ยุ่งเหยิงของเวิร์กโฟลว์องค์กร: ข้อมูลไม่สมบูรณ์ บริบทยาว คำแนะนำที่คลุมเครือ และแหล่งข้อมูลที่ขัดแย้งกัน แทนที่จะให้คะแนนว่า agent ได้ "คำตอบที่ถูกต้อง" หรือไม่ Arena บันทึกร่องรอยการให้เหตุผลทั้งหมดเพื่อให้ทีมวิศวกรรมสามารถแก้ไขข้อบกพร่องและตรวจสอบการปรับปรุงเมื่อเวลาผ่านไป
สิ่งนี้ให้มาตรฐานที่เป็นกลางและไม่ขึ้นกับผู้ขายสำหรับการประเมินการให้เหตุผลข้ามโมเดลและสแต็ก โดยการมุ่งเน้นที่ประสิทธิภาพระดับการผลิตมากกว่าการสาธิต Arena สร้างความสามารถของ agent ที่มีความเสี่ยงสูงที่สามารถตรวจสอบได้ที่องค์กรสามารถปรับให้เข้ากับข้อมูลส่วนตัวและเครื่องมือภายในของตนเอง
ในความท้าทายแรก นักพัฒนาที่เข้าร่วม Arena จะมุ่งเน้นไปที่อุปสรรคพื้นฐานขององค์กร: การให้เหตุผลเอกสาร AI agents จะได้รับมอบหมายให้ให้เหตุผลและคำนวณข้อมูลที่ซับซ้อนและไม่มีโครงสร้าง – ประเภทของงานที่เป็นรากฐานของการวิเคราะห์ทางการเงิน การสืบสวนสาเหตุที่แท้จริง บันทึกการลงทุน และการบริการลูกค้า
ผู้เข้าร่วมเพิ่มเติมในระยะเริ่มต้นรวมถึง alphaXiv, Fireworks, Openhands และ OpenRouter โดยคาดว่าจะมีเพิ่มเติมเมื่อ Arena ขยายไปยังงาน อุตสาหกรรม และการบูรณาการโมเดลต่างๆ
การสำรวจล่าสุดเน้นย้ำช่องว่างที่ Arena กำลังกำหนดเป้าหมาย ธุรกิจ 85% กล่าวว่าพวกเขาต้องการเป็น "องค์กรเอเจนติก" และเกือบสามในสี่วางแผนที่จะปรับใช้ agents อัตโนมัติ แต่น้อยกว่าหนึ่งในสี่รายงานการกำกับดูแลที่เป็นผู้ใหญ่ และหลายคนประสบปัญหาในการเปลี่ยนจากนำร่องไปสู่การผลิตในระดับใหญ่ องค์กรดำเนินการโดยเฉลี่ยแล้วมี agents ประมาณโหล มักอยู่ในไซโล และหลายคนอ้างว่าการเพิ่ม agents มากขึ้นจะสร้างความซับซ้อนมากกว่าคุณค่าหากไม่มีการประสานงานที่ดีขึ้น
"ที่ OpenHands เรามักตื่นเต้นที่จะสนับสนุนผู้สร้างที่ใช้ agents เพื่อแก้ปัญหาเชิงปฏิบัติ" Graham Neubig, Chief Scientist และผู้ร่วมก่อตั้ง OpenHands กล่าว "เรายินดีที่จะสนับสนุนผู้เข้าร่วมที่ใช้ OpenHands Software Agent SDK เพื่อนำทางความท้าทายที่ซับซ้อนเหล่านี้"
"Arena เป็นแค่ประเภทของความคิดริเริ่มที่ขับเคลื่อน AI แบบโอเพนซอร์สไปข้างหน้า – พวกเขาอนุญาตให้นักวิจัยแข่งขัน ทำซ้ำ และสร้างสรรค์สิ่งใหม่ในที่สาธารณะ เรารู้สึกตื่นเต้นที่จะเสริมสร้างความร่วมมือกับ Sentient และจัดหาโครงสร้างพื้นฐานที่ทำให้การทดลองเร็วขึ้นและขยายขนาดง่ายขึ้น" Alex Atallah, ผู้ร่วมก่อตั้งและ CEO, OpenRouter กล่าว
Arena จะเปิดตัวทั่วโลก เชิญนักพัฒนา AI หลายพันคนให้ สมัครเข้ากลุ่มพิเศษแรก โดยมีกิจกรรมแบบพบปะกันโดยตรงที่มีศูนย์กลางอยู่ที่ซานฟรานซิสโกเริ่มตั้งแต่เดือนมีนาคม พ.ศ. 2569
โพสต์ Founders Fund, Pantera และ Franklin Templeton เข้าร่วม 'Arena' ของ Sentient เพื่อทดสอบความแข็งแกร่งของ AI Agents สำหรับองค์กร ปรากฏครั้งแรกใน Metaverse Post


