شرکتهای سازمانی دو سال گذشته را صرف قرار دادن AI Agent ها در گردشهای کاری واقعی کردهاند، از پشتیبانی مشتری و عملیات پشتیبانی گرفته تا فرآیندهای سنگین تصمیمگیری در امور مالی و انطباق. اکنون که این سیستمها به طور فزایندهای در گردشهای کاری واقعی ادغام میشوند، مشکل جدیدی ظهور میکند: Agent ها میتوانند اطلاعات را بازیابی کنند، اما اغلب در ارائه استدلال سازگار و قابل توضیح هنگامی که کار پیچیده، چند مرحلهای یا پر خطر میشود، دچار مشکل هستند.
امروز، آزمایشگاه هوش مصنوعی متنباز سنتینت در حال راهاندازی Arena است، یک محیط زنده و در سطح تولید که در آن هزاران توسعهدهنده هوش مصنوعی رویکردهای رقیب را برای سختترین مشکلات استدلالی شرکتهای سازمانی تحت فشار تست میکنند. اولین گروه شرکتکننده در مرحله اولیه Arena شامل صندوق بنیانگذاران، پانترا و فرانکلین تمپلتون (بیش از 1.5 تریلیون دلار دارایی تحت مدیریت) است - که نشاندهنده علاقه اولیه نهادی به ارزیابی ساختاریافته AI Agent ها قبل از استقرار تولید است.
"همانطور که شرکتها به دنبال اعمال AI Agent ها در گردشهای کاری تحقیق، عملیات و مواجهه با مشتری هستند، سؤال دیگر این نیست که آیا این سیستمها قدرتمند هستند... بلکه این است که آیا آنها در گردشهای کاری واقعی قابل اعتماد هستند،" جولیان لاو، مدیر ارشد فرانکلین تمپلتون داراییهای دیجیتال گفت.
لاو اضافه کرد که محیطهای ساختاریافته مانند Arena به تفکیک ایدههای امیدوارکننده از قابلیتهای آماده تولید کمک خواهند کرد.
"AI Agent ها دیگر یک آزمایش در داخل سازمان نیستند؛ آنها در گردشهای کاری که با مشتریان، پول و نتایج عملیاتی در تماس هستند، قرار میگیرند،" هیمانشو تیاگی، بنیانگذار مشترک در سنتینت گفت. "این تغییر، آنچه را که اهمیت دارد تغییر میدهد. کافی نیست که یک سیستم در یک نمایش چشمگیر باشد. شرکتهای سازمانی باید بدانند که آیا Agent ها میتوانند در تولید به طور قابل اعتماد استدلال کنند، جایی که شکستها پرهزینه هستند و اعتماد شکننده است. آنها به قابلیت مقایسه، تکرارپذیری و راهی برای ردیابی بهبودهای قابلیت اطمینان در طول زمان نیاز دارند - صرف نظر از اینکه از کدام مدلها یا ابزارها در زیر استفاده میکنند."
Arena واقعیت پیچیده گردشهای کاری سازمانی را تکرار میکند: اطلاعات ناقص، زمینه طولانی، دستورالعملهای مبهم و منابع متناقض. به جای امتیازدهی به اینکه آیا یک Agent "پاسخ درست" را دریافت کرده است، Arena کامل ردیابی استدلال را ثبت میکند تا تیمهای مهندسی بتوانند شکستها را اشکالزدایی کنند و بهبودها را در طول زمان تأیید کنند.
این یک معیار خنثی و مستقل از فروشنده برای ارزیابی استدلال در مدلها و پشتهها فراهم میکند. با تمرکز بر عملکرد سطح تولید به جای نمایشها، Arena قابلیتهای قابل تأیید و پر خطر Agent ایجاد میکند که شرکتهای سازمانی میتوانند آن را با دادههای خصوصی و ابزارهای داخلی خود تطبیق دهند.
در اولین چالش خود، توسعهدهندگانی که به Arena میپیوندند بر یک مانع بنیادی سازمانی تمرکز خواهند کرد: استدلال سند. AI Agent ها وظیفه استدلال و محاسبه بر روی دادههای پیچیده و غیرساختاریافته را خواهند داشت - نوعی کار که زیربنای تحلیل مالی، تحقیقات علت ریشهای، یادداشتهای سرمایهگذاری و خدمات مشتری است.
شرکتکنندگان اضافی در مرحله اولیه شامل alphaXiv، Fireworks، Openhands و OpenRouter هستند، که با گسترش Arena در سراسر وظایف، صنایع و ادغامهای مدل، انتظار میرود بیشتر شوند.
نظرسنجیهای اخیر شکافی را که Arena هدف قرار داده است، تأکید میکنند. 85 درصد از کسبوکارها میگویند که میخواهند به "شرکتهای عاملمحور" تبدیل شوند و نزدیک به سه نفر از چهار نفر قصد دارند Agent های خودمختار را مستقر کنند، با این حال کمتر از یک چهارم حکمرانی بالغ را گزارش میکنند و بسیاری برای انتقال از آزمایشی به تولید در مقیاس دچار مشکل هستند. شرکتهای سازمانی به طور متوسط در حال حاضر دوجین Agent را اجرا میکنند، اغلب در سیلوها، و بسیاری اشاره میکنند که افزودن Agent های بیشتر بدون هماهنگی بهتر، پیچیدگی بیشتری نسبت به ارزش ایجاد خواهد کرد.
"در OpenHands، ما همیشه برای حمایت از سازندگانی که از Agent ها برای حل مشکلات عملی استفاده میکنند هیجانزده هستیم،" گراهام نیوبیگ، دانشمند ارشد و بنیانگذار مشترک OpenHands گفت. "ما خوشحالیم که از شرکتکنندگانی که از OpenHands Software Agent SDK برای حل این چالشهای پیچیده استفاده میکنند، پشتیبانی میکنیم."
"Arena دقیقاً نوع ابتکاری است که هوش مصنوعی متنباز را به جلو میبرد - آنها به محققان اجازه میدهند رقابت کنند، تکرار کنند و در عموم نوآوری کنند. ما هیجانزده هستیم که مشارکت خود را با سنتینت عمیقتر کنیم و زیرساختی را فراهم کنیم که آزمایش را سریعتر و مقیاسپذیرتر میکند،" الکس عطاءالله، بنیانگذار مشترک و مدیرعامل OpenRouter گفت.
Arena به صورت جهانی راهاندازی خواهد شد و از هزاران توسعهدهنده هوش مصنوعی دعوت میکند تا برای اولین گروه انحصاری درخواست دهند، با رویدادهای حضوری متمرکز بر سانفرانسیسکو که از 1405/01/01 آغاز میشود.
پست صندوق بنیانگذاران، پانترا و فرانکلین تمپلتون به 'Arena' سنتینت میپیوندند تا AI Agent های سازمانی را تحت فشار تست کنند برای اولین بار در Metaverse Post منتشر شد.


