Весь год мы хоронили классическое обучение ИИ. Оказалось, рано.Смерть, которой не былоПочти весь этот год мы провели в убеждении, что подход, подаривший нам ориВесь год мы хоронили классическое обучение ИИ. Оказалось, рано.Смерть, которой не былоПочти весь этот год мы провели в убеждении, что подход, подаривший нам ори

[Перевод] Это главная ошибка ИИ на сегодняшний день

Весь год мы хоронили классическое обучение ИИ. Оказалось, рано.

965c6b83fc270558ac8cce3c5426d481.png

Смерть, которой не было

Почти весь этот год мы провели в убеждении, что подход, подаривший нам оригинальный ChatGPT - первый закон масштабирования - окончательно мертв.

Считалось, что этот путь развития зашел в тупик. Теперь единственное, что имеет значение - обучение с подкреплением, метод «проб и ошибок», который обеспечил большую часть прогресса за последний год.

Это мнение оказалось в корне неверным. Даже такие ведущие лаборатории, как OpenAI, были застигнуты врасплох и теперь расплачиваются за это.

Предварительное обучение (pre-training), классический метод обучения ИИ через имитацию, не просто живо - оно готовится к настоящему ренессансу в 2026 году. И это важно для вас при выборе ИИ-продуктов или принятии инвестиционных решений.


Два способа сделать ИИ умнее

Есть два пути: сделать модель «больше и толще» или заставить ее «думать дольше».

Индустрия ИИ кажется яркой, шумной, полной прорывов. Со стороны - самая динамичная отрасль в истории.

Но на самом деле она довольно скучная.

Современные модели удивительно похожи на те, что были десять лет назад. Принципы, открытые тогда, остаются столпами прогресса. Алгоритмическая база практически не менялась годами.

Большинство передовых моделей почти идентичны друг другу. Главные факторы, определяющие лидера - данные для обучения и бюджет вычислительных мощностей.

Все сводится к вычислениям. Важно не только то, сколько их у вас, но и насколько эффективно вы их используете.


Как устроены трансформеры

Все современные большие языковые модели - это трансформеры. Архитектура состоит из двух основных элементов:

Слои внимания (Attention layers) - улавливают закономерности в последовательности, заставляя слова «общаться» друг с другом. Например, слово «Пират» связывается со словом «Рыжий», чтобы понять: в предложении «Рыжий Пират был наконец побежден» речь идет об одном персонаже.

Слои долгосрочной памяти (MLP) - позволяют моделям обращаться к своим знаниям за дополнительной информацией. Модель может понять, что «Рыжий Пират» - отсылка к Барбароссе, даже если имя не упоминается в тексте. Просто потому что в процессе обучения она видела много текстов, где эти понятия были связаны.

Самый интуитивный способ понять механизм LLM - представить его как процесс сбора знаний. Модель постепенно собирает информацию из текущего текста и из прошлого опыта, пока не поймет, какое слово должно быть следующим.

1ab36dc420623286d6230dfd253447a7.png

Первый закон: больше данных, больше параметров

Первый закон посвящен «обучению через имитацию». Мы даем модели колоссальный набор данных и просим ее подражать ему. Через многократное повторение модель улавливает скрытые закономерности.

Это индуктивный процесс. Часто видя слова «Я» и «есть» рядом, модель понимает: если сейчас она видит «Я», то велика вероятность, что следующим будет «есть».

Как улучшить этот метод? Увеличить бюджет на обучение:

  1. Увеличить наборы данных

  2. Увеличить размер самих моделей

Насколько велики эти датасеты? Почти невозможно осознать.

Современные бюджеты на обучение передовых моделей колеблются в районе 10²⁷ FLOPs. У этого числа есть название - один октиллион.

Если взять модель с 5 триллионами параметров, это потребует датасета в 33,3 триллиона токенов. Примерно 24 триллиона слов. Эквивалент 24 миллионов полных собраний книг о Гарри Поттере. И это только за один цикл обучения.

Десять лет мы думали, что это все, что нам нужно. Многие верили: этот путь сам по себе приведет к AGI. Нужно просто делать модели больше.

Однако после печально известного прогона GPT-4.5 - модели, которая должна была стать GPT-5, но оказалась провалом - люди поняли: одного масштабирования недостаточно. Началась стагнация.

Все рухнуло, когда Илья Суцкевер, «отец ChatGPT», заявил: закон масштабирования в том виде, в котором мы его знали, мертв.

6c9c103361d437ff4dd5532d5fa90c8e.png

Второй закон: дайте модели подумать

Около двух лет назад группа исследователей в OpenAI задалась вопросом: «А что, если дать моделям время подумать?»

Логика проста. Люди, сталкиваясь со сложной задачей, не отвечают мгновенно. Мы обдумываем проблему, разбиваем ее на шаги. Вкладываем в задачу «мыслительные усилия».

Подход был предельно простым:

  1. Взять предобученную модель

  2. Дать ей небольшой набор данных для обучения «цепочке рассуждений» - связыванию мыслей и декомпозиции задач

  3. Позволить модели прийти к ответу методом проб и ошибок вместо копирования готового решения

Обучение с подкреплением сработало потрясающе. Так родился второй закон масштабирования: результаты модели значительно улучшаются, если дать ей время на раздумья.

Так появились «рассуждающие модели», лидером которых стала OpenAI o1.

Этот режим «пост-обучения» позволил модели вроде GPT-4o превратиться в o1 и радикально улучшить результаты в тестах, где важно глубокое мышление.

11a7119044a5bbf20f8eec8cff3d01a4.png

Но этот закон не просто делал умные модели умнее. Он позволял маленьким моделям становиться такими же «сообразительными», как их огромные собратья, за счет использования вычислений в реальном времени.

f0a66f4e13083193bb00e7b9b24cf9e1.png

Весь прошлый год индустрия была одержима этой идеей - масштабированием вычислений при ответе. Но оказалось, что и это утверждение было не совсем верным.


Почему процесс важнее результата

Судить об интеллекте - модели или человека - можно либо по результату, либо по процессу.

Процесс важнее. Большинство оценивает ИИ по «тесту утки»: если крякает как утка и выглядит как утка - значит, утка. Если модель выдает умный ответ - она умная.

Это ловушка. Умный результат - не доказательство интеллекта. Нужно смотреть на процесс достижения результата, чтобы избежать «ловушки запоминания». Модель может казаться гениальной, просто воспроизводя зазубренные данные.

Можно выучить наизусть решение сложнейшей задачи по физике, но это не сделает доктором наук.


Тест одиночного прохода

Мы пытаемся оценить качество одного «прямого прохода» - когда модель берет ввод и выдает следующий токен без возможности «рассуждать вслух».

Если запретить модели рассуждать письменно, сможет ли она решить сложную задачу?

Оказывается, «рассуждение вслух» для ИИ - часть заученной последовательности. Модели часто запоминают связку: «проблема - рассуждение - решение». Если убрать среднее звено, зубрежка перестает работать. Модель теряет нить, соединяющую условие с ответом.

071331aa4a01022320b1f2c1bca0c90f.png

Поэтому, если модель способна выдать верное решение сложной задачи за один проход, без видимых рассуждений - это и есть истинный показатель ее внутреннего интеллекта.


OpenAI проигрывает гонку

Хорошие новости: прогресс на уровне предварительного обучения все еще идет. Модели становятся «умнее на каждое предсказание».

Особенно это заметно у Gemini и Claude. Они показывают чистый рост способностей от поколения к поколению.

cb0c6caff42ead0e578098f1691d2cdc.png

OpenAI, кажется, полностью капитулировала перед вторым законом. Между 4-м и 5-м поколениями GPT прогресс в «базовом» интеллекте весьма скромен. Они растут за счет того, что тратят больше мощностей на выполнение конкретной задачи.

Вероятно, поэтому ChatGPT стал ощутимо хуже в задачах, не требующих долгих раздумий. Модель GPT-5.2 Instant - насмешка над прогрессом. Приходится постоянно держать включенным флаг «Thinking», чтобы не получить ответ от этой «недумающей» и слабой базы.

99611331d703d4a6615a51e7932392d1.png

В то же время Gemini прекрасна в быстрых задачах. Она быстрее и умнее ChatGPT там, где нужно ответить «с ходу».

Хотите проверить разницу между моделями на практике?

Делегируйте часть рутинных задач вместе с BotHub!

2c4bcc67ac65964c408a8c7608765a55.png

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.


Признание OpenAI

Марк Чен, директор по исследованиям OpenAI, открыто признал: они «переборщили» с пост-обучением в прошлом году и теперь пытаются вернуть себе «форму в пре-трейнинге».

Ориоль Виньялс из DeepMind, напротив, прямо назвал пре-трейнинг ключом к впечатляющим результатам Gemini 3 Pro.

Пре-трейнинг жив. В 2026 году он снова станет главным фокусом исследований после года, когда его считали «мертвым».


Что это значит для рынка

Масштаб вывода определяет размер серверов. Масштаб обучения определяет размер дата-центров.

Если предварительное обучение снова в приоритете, мы увидим колоссальное давление на рынок строительства ЦОД. Наборы данных будут только расти. В один цикл обучения нужно впихнуть еще больше ускорителей.

Мы также увидим рост «экспертной разреженности» (Mixture-of-Experts). Модели будут становиться огромными по числу параметров, но «худыми» внутри - для каждого конкретного предсказания будет задействована лишь малая часть их мощи.

Это ставит вопрос перед производителями железа: не слишком ли сильно NVIDIA увлеклась оптимизацией под «вывод»? Их следующая платформа Rubin включает первый в истории GPU только для вывода - Rubin CPX.

Но если индустрия возвращается к масштабному классическому обучению, важнее становится «горизонтальное масштабирование» - соединение тысяч серверов и дата-центров в единую сеть. Это игра не столько чипов, сколько оптики и связей.


2026: год оптоволокна

Если «масштабирование вширь» станет критическим, 2026-й станет триумфом для рынка оптических технологий. Это может привести к огромному пересмотру стоимости компаний, занимающихся сетевыми технологиями.

В любом случае вычислительные мощности остаются главным фактором прогресса. Гиперскейлеры не перестанут тратить деньги на ИИ в ближайшее время.

С учетом низких процентных ставок и политических циклов в США, в 2026 году будет очень трудно ставить против «ИИ-трейда» - надут этот пузырь или нет, приносит он прибыль прямо сейчас или нет.

Вычисления продолжат расти.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

BitMine увеличила объем стейкинга Ethereum до рекордных $3,7 млрд

BitMine увеличила объем стейкинга Ethereum до рекордных $3,7 млрд

«Казначейская» компания BitMine увеличила объем заблокированных активов в сети Ethereum до 1,08 млн монет. Стоимость портфеля превысила $3 млрд. Источник: A
Поделиться
Forklog2026/01/12 18:16
Глава ФРС Пауэлл резко раскритиковал расследование Минюста Трампа как политическое давление

Глава ФРС Пауэлл резко раскритиковал расследование Минюста Трампа как политическое давление

Глава Федеральной резервной системы Джером Пауэлл выступил в воскресенье с редким телевизионным заявлением, обвинив администрацию Трампа в использовании уголовных угроз для оказания давления на центральный
Поделиться
CryptoNews2026/01/12 17:49
Шерлок Холмс и квантовая запутанность: Ролевое моделирование с «неэкспертными» экспертами

Шерлок Холмс и квантовая запутанность: Ролевое моделирование с «неэкспертными» экспертами

Когда мне нужен свежий подход к какой-либо проблеме, я прибегаю к помощи нетиповых экспертов. Точнее, использую нейросети с назначенными ролями. Это довольно ра
Поделиться
ProBlockChain2026/01/12 14:17