Przedsiębiorstwa przez ostatnie dwa lata ścigały się, aby wprowadzić agentów AI do rzeczywistych procesów roboczych, od obsługi klienta i operacji back-office po procesy wymagające podejmowania decyzji w finansach i zgodności z przepisami. Teraz, gdy te systemy są coraz bardziej zintegrowane z rzeczywistymi przepływami pracy, pojawia się nowy problem: agenci mogą pobierać informacje, ale często mają trudności z zapewnieniem spójnego, wyjaśnialnego rozumowania, gdy praca staje się chaotyczna, wieloetapowa lub obarczona wysokim ryzykiem.
Dzisiaj laboratorium AI open-source Sentient uruchamia Arena, środowisko produkcyjne na żywo, w którym tysiące deweloperów AI przeprowadza testy obciążeniowe konkurencyjnych podejść do naтруdniejszych problemów rozumowania przedsiębiorstw. Pierwsza grupa uczestnicząca w początkowej fazie Arena obejmuje Founders Fund, Pantera i Franklin Templeton ($1,5 bln+ AUM) — sygnalizując wczesne zainteresowanie instytucjonalne ustrukturyzowaną oceną agentów AI przed wdrożeniem produkcyjnym.
"Ponieważ firmy chcą zastosować agentów AI w badaniach, operacjach i procesach skierowanych do klientów, pytanie nie brzmi już, czy te systemy są potężne... ale czy są niezawodne w rzeczywistych przepływach pracy" — powiedział Julian Love, Managing Principal, Franklin Templeton Digital Assets.
Love dodał, że ustrukturyzowane środowiska takie jak Arena pomogą oddzielić obiecujące pomysły od możliwości gotowych do produkcji.
"Agenci AI nie są już eksperymentem w przedsiębiorstwie; są umieszczani w przepływach pracy, które dotykają klientów, pieniędzy i wyników operacyjnych" — powiedział Himanshu Tyagi, współzałożyciel Sentient. "Ta zmiana zmienia to, co się liczy. Nie wystarczy, aby system był imponujący w wersji demonstracyjnej. Przedsiębiorstwa muszą wiedzieć, czy agenci mogą wnioskować niezawodnie w produkcji, gdzie awarie są kosztowne, a zaufanie kruche. Potrzebują porównywalności, powtarzalności i sposobu śledzenia ulepszeń niezawodności w czasie — niezależnie od tego, jakich modeli lub narzędzi używają."
Arena replikuje chaotyczną rzeczywistość przepływów pracy przedsiębiorstwa: niekompletne informacje, długi kontekst, niejednoznaczne instrukcje i sprzeczne źródła. Zamiast oceniać, czy agent uzyskał "właściwą odpowiedź", Arena rejestruje pełny ślad rozumowania, aby zespoły inżynieryjne mogły debugować błędy i weryfikować ulepszenia w czasie.
Zapewnia to neutralny, niezależny od dostawcy benchmark do oceny rozumowania w różnych modelach i stosach. Koncentrując się na wydajności na poziomie produkcyjnym, a nie na wersjach demonstracyjnych, Arena tworzy weryfikowalne możliwości agentów o wysokiej stawce, które przedsiębiorstwa mogą dostosować do własnych prywatnych danych i wewnętrznych narzędzi.
W swoim pierwszym wyzwaniu deweloperzy dołączający do Arena skupią się na podstawowej przeszkodzie przedsiębiorstwa: rozumowaniu dokumentów. Agenci AI będą mieli za zadanie wnioskowanie i przetwarzanie złożonych, nieustrukturyzowanych danych — rodzaj pracy, która stanowi podstawę analizy finansowej, dochodzeń przyczyn źródłowych, notatek inwestycyjnych i obsługi klienta.
Dodatkowi uczestnicy w początkowej fazie obejmują alphaXiv, Fireworks, Openhands i OpenRouter, z oczekiwaniem większej liczby uczestników, gdy Arena rozszerzy się na zadania, branże i integracje modeli.
Najnowsze badania podkreślają lukę, do której celuje Arena. 85% firm twierdzi, że chce stać się "przedsiębiorstwami agentycznymi", a prawie trzy na cztery planują wdrożyć autonomicznych agentów, jednak mniej niż jedna czwarta zgłasza dojrzałe zarządzanie, a wiele ma trudności z przejściem od pilotażu do produkcji na dużą skalę. Przedsiębiorstwa już prowadzą średnio tuzin agentów, często w silosach, a wiele cytuje, że dodanie większej liczby agentów stworzy więcej złożoności niż wartości bez lepszej orkiestracji.
"W OpenHands zawsze jesteśmy podekscytowani wspieraniem twórców używających agentów do rozwiązywania praktycznych problemów" — powiedział Graham Neubig, Chief Scientist i współzałożyciel OpenHands. "Cieszymy się, że możemy wspierać uczestników używających OpenHands Software Agent SDK do nawigacji przez te złożone wyzwania."
"Arena to właśnie taki rodzaj inicjatywy, która posuwa naprzód AI open-source — pozwalają badaczom konkurować, iterować i innowować publicznie. Jesteśmy podekscytowani pogłębieniem naszego partnerstwa z Sentient i zapewnieniem infrastruktury, która sprawia, że eksperymentowanie jest szybsze i łatwiejsze do skalowania" — powiedział Alex Atallah, współzałożyciel i CEO, OpenRouter.
Arena zostanie uruchomiona globalnie, zapraszając tysiące deweloperów AI do ubiegania się o pierwszą ekskluzywną kohortę, z wydarzeniami osobistymi skoncentrowanymi na San Francisco rozpoczynającymi się od marca 2026 roku.
Post Founders Fund, Pantera i Franklin Templeton dołączają do 'Areny' Sentient w celu testowania pod presją Enterprise AI Agents pojawił się najpierw na Metaverse Post.


