В декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по маВ декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по ма

Как ИИ сдал экзамен по финансовому анализу и победил в математической олимпиаде — лучшие статьи декабря 2025

В декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по математике, собирают рабочие репозитории по научным статьям и тестируют реальные киберуязвимости.

Последние исследования показывают, что сегодня вес модели не главный критерий успеха, важна архитектура "мышления"память, роли, обратная связь и проверяемость. Там, где они заданы правильно, агенты работают в разы эффективней. А там, где нет — количество ошибок только увеличивается.

Изучаем топ-10 самых интересных ИИ-исследований декабря. Поехали!

1. Когда команда ИИ-агентов помогает, а когда делает только хуже

Команды ИИ-агентов часто воспринимают как «коллективный разум», но на практике они нередко ухудшают итоговый результат: больше разговоров, больше токенов, и в итоге больше ошибок.

Масштабирование агентов по уровню интеллекта модели и архитектурам систем: видно, как меняется результативность SAS и разных вариантов MAS при росте возможностей LLM.
Масштабирование агентов по уровню интеллекта модели и архитектурам систем: видно, как меняется результативность SAS и разных вариантов MAS при росте возможностей LLM.

Авторы показывают, что выигрыш появляется только там, где задачу можно реально разделить на части и перепроверить. В последовательных задачах «коллектив агентов» мешает мышлению и размывает ответственность.

Масштабирование по числу агентов: есть максимум, после которого качество падает, а накладные расходы растут — оптимум зависит от модели и топологии.
Масштабирование по числу агентов: есть максимум, после которого качество падает, а накладные расходы растут — оптимум зависит от модели и топологии.

Поэтому сначала нужно оценивать силу одного агента. Если он хорошо справляется, команда может сделать хуже. Это напрямую влияет на проектирование ИИ-систем и экономику их использования.

🔍 Обзор статьи | 📜 Полная статья

2. DeepCode: как ИИ научился собирать репозиторий по статье

ИИ давно умеет писать код, но при переходе от файла к проекту всё разваливается: дата-контракты не сходятся, структура теряется, код не запускается. DeepCode решает проблему не масштабом модели, а управлением вниманием и памятью.

От проблемы к решению DeepCode: где не справляются текущие агенты и какие четыре операции помогают удержать полезный сигнал в ограниченном контексте.
От проблемы к решению DeepCode: где не справляются текущие агенты и какие четыре операции помогают удержать полезный сигнал в ограниченном контексте.

Агент DeepCode сжимает статью в структурный план, хранит репозиторий как систему контрактов, а далее постоянно проверяет себя запуском кода. В итоге он стабильно собирает рабочие репозитории — лучше прошлых агентов и на уровне экспертов.

Общая схема DeepCode: blueprint → генерация с памятью и RAG → замкнутый цикл проверки и исправлений.
Общая схема DeepCode: blueprint → генерация с памятью и RAG → замкнутый цикл проверки и исправлений.

Это еще раз доказывает, что качество сложных ИИ-систем определяется не размером модели, а тем, как агент думает, помнит и проверяет себя.

Результаты DeepCode на трёх статьях при разных LLM: архитектура фиксирована, различается только базовая модель.
Результаты DeepCode на трёх статьях при разных LLM: архитектура фиксирована, различается только базовая модель.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

3. ИИ-агент против людей-безопасников: кто кого в реальном пентесте?

Большинство сравнений работы ИИ в области нахождения киберугроз — лабораторные. Исследователи создали реальную инфраструктурную сеть со всем хаосом данных и с длинными цепочками принятия решений.

ARTEMIS — сложный мультиагентный фреймворк, включающий высокоуровневого супервайзера, неограниченное число субагентов с динамически создаваемыми промптами экспертных систем. Он предназначен для выполнения длительных и сложных задач по тестированию на проникновение на реальных производственных системах.
ARTEMIS — сложный мультиагентный фреймворк, включающий высокоуровневого супервайзера, неограниченное число субагентов с динамически создаваемыми промптами экспертных систем. Он предназначен для выполнения длительных и сложных задач по тестированию на проникновение на реальных производственных системах.

Агент ARTEMIS показал, что при правильной архитектуре может работать почти на равных с сильными пентестерами: стабильно, долго и заметно дешевле.

Количество подтверждённых находок участников с течением времени. Примечательно, что у ARTEMIS обычно больше времени между отправками, чем у людей, что указывает на впечатляющую способность эффективно работать на длинных временных горизонтах.
Количество подтверждённых находок участников с течением времени. Примечательно, что у ARTEMIS обычно больше времени между отправками, чем у людей, что указывает на впечатляющую способность эффективно работать на длинных временных горизонтах.

Опять же, и в этой работе решает не сама модель, а организация работы агента. Следующий вопрос — а как мы будем контролировать такие системы дальше.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

4. DataFlow: PyTorch для дата инженеров в эпоху LLM

Пайплайн подготовки данных для LLM — это уже не просто «собрать и почистить данные», это множество циклов генерации, проверки и улучшения. Но в реальности всё держится на скриптах, которые ломаются при малейших изменениях системы.

Высокоуровневая архитектура DataFlow. Система включает ядро движка выполнения (хранилище, операторы, шаблоны и обслуживание LLM), переиспользуемые пайплайны, пользовательские слои управления (CLI и агент) и расширяемую экосистему для специализированных по доменам рабочих процессов. DataFlow создаёт высококачественные, согласованные с задачами датасеты, которые используются последующими приложениями LLM.
Высокоуровневая архитектура DataFlow. Система включает ядро движка выполнения (хранилище, операторы, шаблоны и обслуживание LLM), переиспользуемые пайплайны, пользовательские слои управления (CLI и агент) и расширяемую экосистему для специализированных по доменам рабочих процессов. DataFlow создаёт высококачественные, согласованные с задачами датасеты, которые используются последующими приложениями LLM.

DataFlow предлагает инженерный подход: данные как модульный, управляемый пайплайн — по аналогии с PyTorch для обучения моделей.

Архитектура DataFlow-Agent: мультиагентная система на LangGraph, которая преобразует намерение, выраженное на естественном языке, в проверенный исполняемый DAG-пайплайн.
Архитектура DataFlow-Agent: мультиагентная система на LangGraph, которая преобразует намерение, выраженное на естественном языке, в проверенный исполняемый DAG-пайплайн.

Качество работы агентов определяется не только архитектурой "мышления", но и данными, на которых они обучены. Поэтому теперь с данными можно работать системно, а не на ощупь.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

5. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

LLM уверенно пересказывают научные статьи, генерируют идеи и пишут код. Но в реальной науке важен полный исследовательский цикл: точное чтение литературы, корректная постановка эксперимента и аккуратные выводы.

Пайплайн SGI-Bench: четыре стадии научного цикла — размышление, концепция, действие и восприятие — и соответствующие им типы задач.
Пайплайн SGI-Bench: четыре стадии научного цикла — размышление, концепция, действие и восприятие — и соответствующие им типы задач.

SGI-Bench впервые измеряет именно эту целостность. Результат любопытный: модели неплохо справляются с отдельными шагами, но плохо собирают результат в целое исследование.

10 научных областей SGI-Bench: от астрономии и химии до нейронаук и материаловедения.
10 научных областей SGI-Bench: от астрономии и химии до нейронаук и материаловедения.

Дальнейший прогресс ИИ для науки упирается в умение проверять итоговый результат и собирать полное исследование на осное уже собранной информации.

Схема оценки: агентный пайплайн с настройкой метрик, прогоном моделей и генерацией отчета.
Схема оценки: агентный пайплайн с настройкой метрик, прогоном моделей и генерацией отчета.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

6. Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях

Экономические модели долго игнорировали неструктурированные данные: текстовые новости и различные заявления в соцсетях.

Сравнение предыдущих исследований и цели: неструктурированные языковые сигналы наряду со структурированными числовыми данными критически важны для принятия экономических решений.
Сравнение предыдущих исследований и цели: неструктурированные языковые сигналы наряду со структурированными числовыми данными критически важны для принятия экономических решений.

Исследователи показывают, как встроить текст в обучение агентов так, чтобы он стал реальным сигналом и влиял на качество моделей.

Рабочий процесс LAMP: модуль Think с двумя путями извлекает долгосрочные тренды и краткосрочные шоки в компактные эмбеддинги рассуждения; модуль Speak применяет self-attention, чтобы выбрать и распространить одно сообщение, и выполняет шаг рефлексии для обновления убеждений; сеть политики модуля Decide объединяет числовые наблюдения с языковыми и рефлексивными эмбеддингами для выбора действий.
Рабочий процесс LAMP: модуль Think с двумя путями извлекает долгосрочные тренды и краткосрочные шоки в компактные эмбеддинги рассуждения; модуль Speak применяет self-attention, чтобы выбрать и распространить одно сообщение, и выполняет шаг рефлексии для обновления убеждений; сеть политики модуля Decide объединяет числовые наблюдения с языковыми и рефлексивными эмбеддингами для выбора действий.

В итоге модели стали более устойчивыми и в кризисах, и в спокойные периоды. Это шаг к экономическим моделям, которые лучше отражают реальные экономические процессы.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

7. Когда тесты молчат: как ИИ-агент чинит баги

В реальных проектах тесты часто слабые или вообще отсутствуют.

Обзор InfCode для автоматизированной генерации и отбора исправлений (патчей) кода.
Обзор InfCode для автоматизированной генерации и отбора исправлений (патчей) кода.

InfCode делает тесты активным участником процесса: один агент усиливает проверки, другой чинит код, третий отбирает устойчивые решения. Это ещё раз доказывает, что надежная ИИ-разработка строится на основе мультиагентных систем с правильным контекстом и петлей обратной связи между агентами.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

8. Как ИИ-агенты решают задачи международной олимпиады по математике

Олимпиадные задачи не решаются с наскока: они требуют возвращения к предыдущим идеям, наличия промежуточных лемм и аккуратного накопления знаний.

По мере роста сложности задач резко растут и человеческое время размышлений, и расход токенов у моделей.
По мере роста сложности задач резко растут и человеческое время размышлений, и расход токенов у моделей.

Ученые предлагают ИИ хранить проверенные леммы и возвращаться к ним время от времени.

Агентная схема Intern-S1-MO: рассуждатель генерирует ход решения, суммаризатор выделяет леммы, верификатор проверяет их перед записью в память; затем библиотека лемм помогает в следующих раундах и в финальной доводке ответа.
Агентная схема Intern-S1-MO: рассуждатель генерирует ход решения, суммаризатор выделяет леммы, верификатор проверяет их перед записью в память; затем библиотека лемм помогает в следующих раундах и в финальной доводке ответа.

В итоге ИИ завоевал серебряную медаль международной олимпиады по математике и "золотую медаль" китайской олимпиады. Потрясающе.

🔍 Обзор статьи | 📜 Полная статья

9. Сможет ли ИИ пройти сложный экзамен по финансовому анализу?

Экзамен CFA (Chartered Financial Analyst) долго оставался сложным для ИИ: там много кейсов, нюансов, и нужны нетривиальные решения.

Примеры того, как устроены пробные вопросы CFA по уровням: от коротких тестов до кейсов с большим контекстом.
Примеры того, как устроены пробные вопросы CFA по уровням: от коротких тестов до кейсов с большим контекстом.

Но оказывается рассуждающие модели стабильно проходят все три уровня теста и набирают баллы на уровне лучших кандидатов. Ошибки, конечно, остаются — но в этике и тонкой интерпретации фактов.

Пример, где модель ошибается в применении этических стандартов к конкретной ситуации — один из самых «липких» типов задач.
Пример, где модель ошибается в применении этических стандартов к конкретной ситуации — один из самых «липких» типов задач.
Пример вычислительной ошибки: модель подставляет неверные базовые значения и получает неправильный финансовый результат.
Пример вычислительной ошибки: модель подставляет неверные базовые значения и получает неправильный финансовый результат.

ИИ умеет рассуждать, да так, что научился решать сложные экзамены. Но он всё ещё нуждается в нашем контроле там, где цена ошибки слишком высока.

🔍 Обзор статьи | 📜 Полная статья

10. Почему простые задачи оказались для ИИ самыми сложными

Тест AI Consumer Index (ACE) проверяет полезность ИИ в бытовых задачах: покупки и выбор товаров, создание рецептов под диету, диагностировать проблему по дому и предложить идею для ремонта и так далее.

Таблица лидеров ACE.
Таблица лидеров ACE.

Результат неприятный: даже лидеры справляются лишь в половине случаев и часто уверенно галлюцинируют.

Пример рубрики для покупок с 9 критериями.
Пример рубрики для покупок с 9 критериями.

Очевидно, что следующий шаг в ИИ — надёжность рядом с человеком. ИИ должен безопасно брать на себя обычные житейские задачи, заслуживая доверие не словом, а делом.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

Итак, последние исследования показывают, что правильная организация "мыслительного процесса" играет критическую роль в качестве работы ИИ. Архитектура систем, память, правильные роли и проверяемость результатов дают больший эффект, чем размер моделей. Агенты уже конкурируют с людьми в сложных задачах, но выигрывают только там, где им задали четкие правила. Сегодня мы всё ещё не можем без риска доверить ИИ даже покупку товаров в интернете, но в следующем году ключевым вектором прогресса станет инженерия надёжных интеллектуальных систем, способных действовать рядом с человеком по проверяемым правилам и с предсказуемым результатом.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно