По слухам, DeepSeek V4 превосходит ChatGPT и Claude в кодировании с длинным контекстом, ориентируясь на задачи кодирования элитного уровня. Инсайдеры утверждают, что ИИ-ландшафт Кремниевой долины должен быть обеспокоен, если внутренние тесты намекают на ожидаемую производительность после запуска в середине февраля.
Китайский ИИ-стартап DeepSeek, как сообщается, планирует выпустить DeepSeek V4, свою новейшую большую языковую модель, 17 февраля. Осведомленные источники утверждают, что модель готова затмить существующие большие языковые модели, такие как ChatGPT от OpenAI и Claude от Anthropic, при обработке длинных контекстных запросов кода и задач.
Разработчики выражают глубокое ожидание выпуска DeepSeek V4
Китайская компания не раскрыла публично никакой информации о предстоящем выпуске и не подтвердила слухи на момент написания. Разработчики в различных социальных сетях выразили глубокое ожидание выпуска. Yuchen Jin, ИИ-разработчик и сооснователь Hyperbolic Labs, написал в X, что "по слухам, DeepSeek V4 скоро выйдет с более мощным кодированием, чем Claude и GPT".
Subreddit r/DeepSeek также разогрелся, при этом один пользователь объяснил, что его одержимость предстоящей моделью V4 от DeepSeek была ненормальной. Пользователь сказал, что он часто "проверяет новости, возможные слухи, и даже читает документацию на сайте DS, чтобы найти любые изменения или признаки, указывающие на обновление".
Предыдущие релизы DeepSeek оказали значительное влияние на мировые рынки. Китайский ИИ-стартап выпустил свою модель рассуждений R1 в январе 2025 года, что привело к распродаже на триллион долларов. Релиз соответствовал модели 01 от OpenAI по математическим тестам и тестам на рассуждения, несмотря на то, что стоил значительно меньше, чем американский ИИ-стартап потратил на свою модель 01.
Китайская компания, как сообщается, потратила всего 6 000 000 $ на выпуск модели. Между тем, глобальные конкуренты тратят почти в 70 раз больше для того же результата. Её модель V3 также получила оценку 90,2% в тесте MATH-500 по сравнению с 78,3% у Claude. Более позднее обновление V3 от DeepSeek (V3.2 Speciale) дополнительно улучшило её производительность.
Продающая точка её модели V4 эволюционировала от акцента V3 на чистом рассуждении, формальных доказательствах и логической математике. Ожидается, что новый релиз будет гибридной моделью, которая сочетает в себе как задачи рассуждения, так и задачи без рассуждения. Модель нацелена на захват рынка разработчиков, заполняя существующий пробел, требующий высокой точности и генерации кода с длинным контекстом.
Claude Opus 4.5 в настоящее время претендует на доминирование в тесте SWE, достигая точности 80,9%. V4 необходимо превзойти это, чтобы опрокинуть Claude Opus 4.5. Основываясь на предыдущих успехах, предстоящая модель может превзойти этот порог и заявить о доминировании в тесте.
DeepSeek внедряет mHC для обучения больших языковых моделей
Успех DeepSeek оставил многих в глубоком профессиональном недоверии. Как могла такая небольшая компания достичь таких результатов? Секрет может быть глубоко укоренен в её исследовательской работе , опубликованной 1 января. Компания определила новый метод обучения, который позволяет разработчикам легко масштабировать большие языковые модели. Liang Wenfeng, основатель и генеральный директор DeepSeek, написал в исследовании, что компания использует Manifold-Constrained Hyper-Connections (mHC) для обучения своих ИИ-моделей.
Руководитель предложил использовать mHC для решения проблем, с которыми сталкиваются разработчики при обучении больших языковых моделей. По словам Wenfeng, mHC является обновлением Hyper-Connections (HC), фреймворка, который другие ИИ-разработчики используют для обучения своих больших языковых моделей. Он объяснил, что HC и другие традиционные ИИ-архитектуры заставляют все данные проходить через один узкий канал. В то же время mHC расширяет этот путь на несколько каналов, облегчая передачу данных и информации без возникновения коллапса при обучении.
Lian Jye Su, главный аналитик Omdia, похвалил генерального директора Wenfeng за публикацию их исследований. Su подчеркнул, что решение DeepSeek опубликовать свои методы обучения диктует обновленную уверенность в китайском ИИ-секторе. DeepSeek доминирует в развивающихся странах. Microsoft опубликовала отчет в четверг, показывающий, что DeepSeek контролирует 89% китайского ИИ-рынка и набирает обороты в развивающихся странах.
Хотите, чтобы ваш проект оказался перед ведущими умами крипто-индустрии? Представьте его в нашем следующем отраслевом отчете, где данные встречаются с влиянием.
Источник: https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/


