Не успели мы опомниться от предыдущего релиза пару дней назад, как 5 марта 2026 года OpenAI официально представила нам уже 5.4 в ChatGPT, API и Codex. Внутри самого ChatGPT модель идет как GPT-5.4 Thinking, так и в GPT-5.4 Pro.
Нам дают улучшенную версию для набора задач, где собрать фактуру, удержать контекст, пройтись по инструментам, проверить себя и выдать результат. Именно на это OpenAI делает основной акцент в официальном анонсе.
Но, как обычно, одно дело - красивый релизный пост, другое - что из этого реально работает. Давайте попробуем разобраться.
Если же вы сами хотите покопаться в новой модели и протестировать ее на разных задачах, обратите внимание на рейтинг виртуальных карт, собранных на нашем сайте. Сравнивайте условия, выпускайте карту и с помощью нее оплачивайте подписку ChatGPT через официальный сайт. Также 20 марта на Paybeam появится возможность оплаты ChatGPT и других нейросетей без выпуска виртуальной карты, stay tuned.
ChatGPT-5.4 Thinking теперь умеет показывать upfront plan - то есть заранее очерчивать план своей работы на длинных и сложных запросах. Пользователь может вмешаться прямо по ходу ответа, скорректировать курс и не начинать все заново в новом сообщении.
Т.е. раньше длинный запрос к модели совершался без прямого участия и понимания того, как именно идет решение вашей. Теперь OpenAI встроило в Thinking-режим промежуточный слой: вот как я собираюсь решать задачу, вот мои шаги, если нужно - поправь меня прямо сейчас. Ранее эта возможность была только у режима PRO.
OpenAI ощутимо улучшила deep web research, особенно на очень специфических запросах. Теперь 5.4 лучше удерживает контекст в вопросах, где нужно дольше думать. В анонсе указано, что модель стала сильнее в agentic web search: на бенчмарке BrowseComp GPT-5.4 показывает 82,7% против 65,8% у GPT-5.2, а GPT-5.4 Pro доходит до 89,3%.
Мы попросили обе модели спроектировать логику работы автономного ai-агента для ежедневного мониторинга выдачи яндекса и выявления сайтов с накрученными поведенческими факторами в топ-20 по пулу коммерческих запросов. Дополнительно дали кучу всяких ограничений, чтобы спровоцировать модель к более тонкой работе.
Вот что мы получили.
Версия 5.2 в плане самого контекста - ответила верно, но подача оказалась очень общей.
5.4, в свою очередь, дала очень развернутый и структурированный ответ - подробно разжевав все вопросы.
Вот здесь GPT-5.4 уже реально делает шаг вперед. OpenAI внедрила режим работы через screenshot-based UI interaction, когда агент может ориентироваться по скриншотам интерфейса, кликать по координатам, использовать клавиатуру и выполнять многошаговые действия в приложениях и на сайтах. В API это вынесено в built-in computer tool с поддержкой контекста до 1 миллиона токенов для длинных агентных сценариев.
На бенчмарке OSWorld-Verified, который измеряет способность модели навигировать в десктопной среде через скриншоты и действия мышью и клавиатурой, GPT-5.4 показывает 75,0% успеха против 47,3% у GPT-5.2. OpenAI отдельно отмечает, что это даже выше указанного у них человеческого уровня в 72,4%. На WebArena-Verified модель набирает 67,3%, а на Online-Mind2Web - 92,8% при screenshot-only observations.
Добавили и улучшение поведения агента в самом интерфейсе ChatGPT. По тому результату, который мы увидели - он стал гораздо лучше воспринимать контекст на страницах и в разы меньше промахиваться.
Пока это в первую очередь история для разработчиков и агентных систем, а не для среднего пользователя. Но именно отсюда будет расти следующий класс продуктов.
Еще одна линия релиза, которую легко недооценить: таблицы, презентации и документы. OpenAI делала специальный упор на улучшение работы GPT-5.4 со spreadsheet modeling, presentations и documents. На внутреннем бенчмарке задач по моделированию таблиц уровня junior investment banking analyst модель получила 87,3% против 68,4% у GPT-5.2. На задачах по презентациям люди предпочли результаты GPT-5.4 в 68% случаев из-за более сильной визуальной структуры и лучшего использования image generation.
Именно отсюда растет и история с ChatGPT for Excel, которую OpenAI анонсировала в тот же день. Но важно не путать местами причину и следствие. Excel add-in - это не отдельный продукт, а прикладная обвязка над общей идеей релиза. Сначала OpenAI обучает модель лучше работать с spreadsheet-задачами. Потом поверх этого показывает официальный add-in для Excel. Так что если кто-то говорит, что GPT-5.4 - это версия с Excel, то это слишком узкое описание. Excel здесь просто самый наглядный пример более общего поворота компании в сторону прикладной офисной автоматизации.
По словам OpenAI, модель использует значительно меньше токенов для решения задач по сравнению с GPT-5.2, а это дает снижение расхода токенов и более высокую скорость. В API changelog это также подкрепляется tool search - механизмом, который позволяет не тащить сразу огромную поверхность инструментов в контекст, а подгружать нужное по ходу выполнения, что должно уменьшать токеновую нагрузку и улучшать задержки.
На наборе деидентифицированных промптов, где пользователи ранее отмечали фактические ошибки, у GPT-5.4 отдельные утверждения на 33% реже оказываются ложными, а полные ответы на 18% реже содержат ошибки по сравнению с GPT-5.2. Это, пожалуй, одна из самых сильных цифр во всем анонсе, потому что она описывает прямую бытовую боль всех пользователей LLM.
Но, опять же, это внутренние данные OpenAI на их собственном наборе промптов. Это не означает, что модель внезапно перестала галлюцинировать. Это означает только то, что компания утверждает заметное снижение частоты ошибок по своей методике.
Из того, что мы заметили - да, можно однозначно сказать, что модель стала думать шустрее. Разница не такая очевидная, как между 5.1 и 5.2, но ответы на одни и те же запросы в сравнении с 5.3 - приходят примерно на 20-30% быстрее.
По официальной таблице OpenAI GPT-5.4 выглядит очень даже презентабельно. GDPval - 83,0% против 70,9% у GPT-5.2. SWE-Bench Pro - 57,7% против 55,6%. OSWorld-Verified - 75,0% против 47,3%. BrowseComp - 82,7% против 65,8%. Toolathlon - 54,6% против 45,7%. На части академических тестов тоже есть рост. Но картина не везде ровная: например, на Terminal-Bench 2.0 GPT-5.3-Codex даже выше, чем обычная GPT-5.4 - 77,3% против 75,1%. А на некоторых тяжелых научных и математических задачах уже GPT-5.4 Pro заметно отрывается от базовой GPT-5.4.
Из этого следует простой вывод. GPT-5.4 - не лучшая модель вообще для всего подряд. Скорее это сильная основная reasoning-модель, куда OpenAI вшила лучшие куски из последних направлений: код, tool use, web research, computer use и прикладную офисную работу. А если нужна уже совсем максимальная планка на сложных задачах, компания сама толкает пользователя в сторону GPT-5.4 Pro.
Тоже интересная деталь. В анонсе OpenAI прямо указывает, что GPT-5.4 - это их первая основная reasoning-модель, которая включает frontier coding capabilities из GPT-5.3-Codex. Поэтому компания и решила поднять номер до 5.4, чтобы отразить этот скачок и упростить выбор моделей в Codex. А еще OpenAI говорят, что со временем Instant-модели и Thinking-модели будут развиваться с разной скоростью.
Очень странный сдвиг продуктовой логики, конечно, но, теме не менее - понятный. Раньше линейка выглядела как набор соседних, но местами разрозненных веток. Теперь OpenAI пытается собрать основной флагман как агрегат всего лучшего, что было сделано параллельно в других ветках.
Апгрейд не бесплатный (кто бы сомневался). В API стандартная GPT-5.4 стоит $2.50 за миллион входных токенов, $0.25 за миллион cached input токенов и $15 за миллион выходных токенов. Для сравнения, GPT-5.2 стоила $1.75, $0.175 и $14 соответственно. GPT-5.4 Pro стоит уже $30 за миллион входных и $180 за миллион выходных токенов. Более высокая цена должна частично компенсироваться лучшей token efficiency, то есть меньшим числом токенов на решение реальных задач.
Т.е. нас убеждают в том, что формально модель дороже, но если она действительно делает меньше лишних шагов, меньше ошибается и лучше использует инструменты - итоговый профит может оказаться не хуже, чем у более дешевой, но более болтливой или менее точной версии. Проверять это, понятно, придется на своем кошельке.
Не знаю, что там происходит с маркетингом у Альтмана. Но вот эта череда выходов новых изменений - нехило так настораживает.
И вот по сравнению с 5.3 - да, тут есть о чем поговорить, но и переоценивать релиз не стоит. OpenAI снова показывает сильные внутренние бенчмарки и красивые обещания про меньше ошибок и больше эффективности. Такое мы уже видели не раз.
Но вот если в прикладных задачах GPT-5.4 действительно даст меньше мусора, чем GPT-5.2, тогда это будет уже не дежурный минорный релиз, а один из тех апдейтов, после которых постепенно меняется сам класс пользовательских ожиданий от ИИ.
Хотелось бы, конечно, чтобы мы получили что-то вроде версии PRO 5.2 (хоть и на минималках). Время покажет.
Источник


