БиржаDEX+

Купить крипто Рынки Спотовая Фьючерсы500X Сбережения Мероприятия

Еще

Обзор 2025

В декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по маВ декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по ма

Как ИИ сдал экзамен по финансовому анализу и победил в математической олимпиаде — лучшие статьи декабря 2025

Автор: ProBlockChain

Источник: ProBlockChain

2025/12/31 19:05

В декабре 2025 года ИИ-агенты научились решать задачи на уровне профессионального финансового аналитика, находят доказательства на международной олимпиаде по математике, собирают рабочие репозитории по научным статьям и тестируют реальные киберуязвимости.

Последние исследования показывают, что сегодня вес модели — не главный критерий успеха, важна архитектура "мышления" — память, роли, обратная связь и проверяемость. Там, где они заданы правильно, агенты работают в разы эффективней. А там, где нет — количество ошибок только увеличивается.

Изучаем топ-10 самых интересных ИИ-исследований декабря. Поехали!

1. Когда команда ИИ-агентов помогает, а когда делает только хуже

Команды ИИ-агентов часто воспринимают как «коллективный разум», но на практике они нередко ухудшают итоговый результат: больше разговоров, больше токенов, и в итоге больше ошибок.

Масштабирование агентов по уровню интеллекта модели и архитектурам систем: видно, как меняется результативность SAS и разных вариантов MAS при росте возможностей LLM.

Авторы показывают, что выигрыш появляется только там, где задачу можно реально разделить на части и перепроверить. В последовательных задачах «коллектив агентов» мешает мышлению и размывает ответственность.

Масштабирование по числу агентов: есть максимум, после которого качество падает, а накладные расходы растут — оптимум зависит от модели и топологии.

Поэтому сначала нужно оценивать силу одного агента. Если он хорошо справляется, команда может сделать хуже. Это напрямую влияет на проектирование ИИ-систем и экономику их использования.

🔍 Обзор статьи | 📜 Полная статья

2. DeepCode: как ИИ научился собирать репозиторий по статье

ИИ давно умеет писать код, но при переходе от файла к проекту всё разваливается: дата-контракты не сходятся, структура теряется, код не запускается. DeepCode решает проблему не масштабом модели, а управлением вниманием и памятью.

От проблемы к решению DeepCode: где не справляются текущие агенты и какие четыре операции помогают удержать полезный сигнал в ограниченном контексте.

Агент DeepCode сжимает статью в структурный план, хранит репозиторий как систему контрактов, а далее постоянно проверяет себя запуском кода. В итоге он стабильно собирает рабочие репозитории — лучше прошлых агентов и на уровне экспертов.

Общая схема DeepCode: blueprint → генерация с памятью и RAG → замкнутый цикл проверки и исправлений.

Это еще раз доказывает, что качество сложных ИИ-систем определяется не размером модели, а тем, как агент думает, помнит и проверяет себя.

Результаты DeepCode на трёх статьях при разных LLM: архитектура фиксирована, различается только базовая модель.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

3. ИИ-агент против людей-безопасников: кто кого в реальном пентесте?

Большинство сравнений работы ИИ в области нахождения киберугроз — лабораторные. Исследователи создали реальную инфраструктурную сеть со всем хаосом данных и с длинными цепочками принятия решений.

ARTEMIS — сложный мультиагентный фреймворк, включающий высокоуровневого супервайзера, неограниченное число субагентов с динамически создаваемыми промптами экспертных систем. Он предназначен для выполнения длительных и сложных задач по тестированию на проникновение на реальных производственных системах.

Агент ARTEMIS показал, что при правильной архитектуре может работать почти на равных с сильными пентестерами: стабильно, долго и заметно дешевле.

Количество подтверждённых находок участников с течением времени. Примечательно, что у ARTEMIS обычно больше времени между отправками, чем у людей, что указывает на впечатляющую способность эффективно работать на длинных временных горизонтах.

Опять же, и в этой работе решает не сама модель, а организация работы агента. Следующий вопрос — а как мы будем контролировать такие системы дальше.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

4. DataFlow: PyTorch для дата инженеров в эпоху LLM

Пайплайн подготовки данных для LLM — это уже не просто «собрать и почистить данные», это множество циклов генерации, проверки и улучшения. Но в реальности всё держится на скриптах, которые ломаются при малейших изменениях системы.

Высокоуровневая архитектура DataFlow. Система включает ядро движка выполнения (хранилище, операторы, шаблоны и обслуживание LLM), переиспользуемые пайплайны, пользовательские слои управления (CLI и агент) и расширяемую экосистему для специализированных по доменам рабочих процессов. DataFlow создаёт высококачественные, согласованные с задачами датасеты, которые используются последующими приложениями LLM.

DataFlow предлагает инженерный подход: данные как модульный, управляемый пайплайн — по аналогии с PyTorch для обучения моделей.

Архитектура DataFlow-Agent: мультиагентная система на LangGraph, которая преобразует намерение, выраженное на естественном языке, в проверенный исполняемый DAG-пайплайн.

Качество работы агентов определяется не только архитектурой "мышления", но и данными, на которых они обучены. Поэтому теперь с данными можно работать системно, а не на ощупь.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

5. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

LLM уверенно пересказывают научные статьи, генерируют идеи и пишут код. Но в реальной науке важен полный исследовательский цикл: точное чтение литературы, корректная постановка эксперимента и аккуратные выводы.

Пайплайн SGI-Bench: четыре стадии научного цикла — размышление, концепция, действие и восприятие — и соответствующие им типы задач.

SGI-Bench впервые измеряет именно эту целостность. Результат любопытный: модели неплохо справляются с отдельными шагами, но плохо собирают результат в целое исследование.

10 научных областей SGI-Bench: от астрономии и химии до нейронаук и материаловедения.

Дальнейший прогресс ИИ для науки упирается в умение проверять итоговый результат и собирать полное исследование на осное уже собранной информации.

Схема оценки: агентный пайплайн с настройкой метрик, прогоном моделей и генерацией отчета.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

6. Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях

Экономические модели долго игнорировали неструктурированные данные: текстовые новости и различные заявления в соцсетях.

Сравнение предыдущих исследований и цели: неструктурированные языковые сигналы наряду со структурированными числовыми данными критически важны для принятия экономических решений.

Исследователи показывают, как встроить текст в обучение агентов так, чтобы он стал реальным сигналом и влиял на качество моделей.

Рабочий процесс LAMP: модуль Think с двумя путями извлекает долгосрочные тренды и краткосрочные шоки в компактные эмбеддинги рассуждения; модуль Speak применяет self-attention, чтобы выбрать и распространить одно сообщение, и выполняет шаг рефлексии для обновления убеждений; сеть политики модуля Decide объединяет числовые наблюдения с языковыми и рефлексивными эмбеддингами для выбора действий.

В итоге модели стали более устойчивыми и в кризисах, и в спокойные периоды. Это шаг к экономическим моделям, которые лучше отражают реальные экономические процессы.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

7. Когда тесты молчат: как ИИ-агент чинит баги

В реальных проектах тесты часто слабые или вообще отсутствуют.

Обзор InfCode для автоматизированной генерации и отбора исправлений (патчей) кода.

InfCode делает тесты активным участником процесса: один агент усиливает проверки, другой чинит код, третий отбирает устойчивые решения. Это ещё раз доказывает, что надежная ИИ-разработка строится на основе мультиагентных систем с правильным контекстом и петлей обратной связи между агентами.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

8. Как ИИ-агенты решают задачи международной олимпиады по математике

Олимпиадные задачи не решаются с наскока: они требуют возвращения к предыдущим идеям, наличия промежуточных лемм и аккуратного накопления знаний.

По мере роста сложности задач резко растут и человеческое время размышлений, и расход токенов у моделей.

Ученые предлагают ИИ хранить проверенные леммы и возвращаться к ним время от времени.

Агентная схема Intern-S1-MO: рассуждатель генерирует ход решения, суммаризатор выделяет леммы, верификатор проверяет их перед записью в память; затем библиотека лемм помогает в следующих раундах и в финальной доводке ответа.

В итоге ИИ завоевал серебряную медаль международной олимпиады по математике и "золотую медаль" китайской олимпиады. Потрясающе.

🔍 Обзор статьи | 📜 Полная статья

9. Сможет ли ИИ пройти сложный экзамен по финансовому анализу?

Экзамен CFA (Chartered Financial Analyst) долго оставался сложным для ИИ: там много кейсов, нюансов, и нужны нетривиальные решения.

Примеры того, как устроены пробные вопросы CFA по уровням: от коротких тестов до кейсов с большим контекстом.

Но оказывается рассуждающие модели стабильно проходят все три уровня теста и набирают баллы на уровне лучших кандидатов. Ошибки, конечно, остаются — но в этике и тонкой интерпретации фактов.

Пример, где модель ошибается в применении этических стандартов к конкретной ситуации — один из самых «липких» типов задач.

Пример вычислительной ошибки: модель подставляет неверные базовые значения и получает неправильный финансовый результат.

ИИ умеет рассуждать, да так, что научился решать сложные экзамены. Но он всё ещё нуждается в нашем контроле там, где цена ошибки слишком высока.

🔍 Обзор статьи | 📜 Полная статья

10. Почему простые задачи оказались для ИИ самыми сложными

Тест AI Consumer Index (ACE) проверяет полезность ИИ в бытовых задачах: покупки и выбор товаров, создание рецептов под диету, диагностировать проблему по дому и предложить идею для ремонта и так далее.

Таблица лидеров ACE.

Результат неприятный: даже лидеры справляются лишь в половине случаев и часто уверенно галлюцинируют.

Пример рубрики для покупок с 9 критериями.

Очевидно, что следующий шаг в ИИ — надёжность рядом с человеком. ИИ должен безопасно брать на себя обычные житейские задачи, заслуживая доверие не словом, а делом.

🔍 Обзор статьи | 📜 Полная статья | 💾 Код

Итак, последние исследования показывают, что правильная организация "мыслительного процесса" играет критическую роль в качестве работы ИИ. Архитектура систем, память, правильные роли и проверяемость результатов дают больший эффект, чем размер моделей. Агенты уже конкурируют с людьми в сложных задачах, но выигрывают только там, где им задали четкие правила. Сегодня мы всё ещё не можем без риска доверить ИИ даже покупку товаров в интернете, но в следующем году ключевым вектором прогресса станет инженерия надёжных интеллектуальных систем, способных действовать рядом с человеком по проверяемым правилам и с предсказуемым результатом.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Как ИИ сдал экзамен по финансовому анализу и победил в математической олимпиаде — лучшие статьи декабря 2025

1. Когда команда ИИ-агентов помогает, а когда делает только хуже

2. DeepCode: как ИИ научился собирать репозиторий по статье

3. ИИ-агент против людей-безопасников: кто кого в реальном пентесте?

4. DataFlow: PyTorch для дата инженеров в эпоху LLM

5. Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

6. Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях

7. Когда тесты молчат: как ИИ-агент чинит баги

8. Как ИИ-агенты решают задачи международной олимпиады по математике

9. Сможет ли ИИ пройти сложный экзамен по финансовому анализу?

10. Почему простые задачи оказались для ИИ самыми сложными

Вам также может быть интересно

Конгрессмен Уоррен Дэвидсон критикует криптовалютную политику США, называя её угрозой основным принципам Bitcoin

SEC обвиняет в мошенничестве на 14 000 000 $ в криптоклубах WhatsApp

Binance достиг 300 миллионов пользователей с объемом торгов 34 триллиона $ в 2025 году

Популярные новости

Конгрессмен Уоррен Дэвидсон критикует криптовалютную политику США, называя её угрозой основным принципам Bitcoin

SEC обвиняет в мошенничестве на 14 000 000 $ в криптоклубах WhatsApp

Binance достиг 300 миллионов пользователей с объемом торгов 34 триллиона $ в 2025 году

СРОЧНО: Необычная прокачка произошла на Альткоине на Binance – 10-кратный рост за 1 час

Почему ончейн-фонд JPMorgan является важным сигналом для Ethereum

Цены на криптовалюту