LLM учатся не только тому, чему мы пытаемся их научить. Вместе с задачами, метками и инструкциями они усваивают и побочные сигналы, которые мы воспринимаем как шум или случайность. Исследование международной группы учёных показало, что такие подпороговые сигналы могут работать как канал передачи поведения между моделями. Даже если убрать все явные инструкции, то стиль рассуждений, стратегии ответов и другие поведенческие признаки все равно просочатся через данные, которые семантически с ними никак не связаны.
Авторы называют этот эффект сублиминальным обучением. Мы можем удалить метки, отфильтровать инструкции и проверить датасет вручную, и всё равно передать модели поведение, которое не планировали передавать.
Идея о том, что модель может учиться между строк вовсе не нова. В ML существует понятие неявного обучения, когда система усваивает закономерности, которые никто специально не размечал. Модель просто видит данные и начинает использовать то, что статистически поможет ей лучше предсказать следующий шаг. Касательно же больших языковых моделей, то никто намеренно не размечает тексты по категориям «сарказм», «ирония» или «неуверенность», но модель всё равно начинает различать и тон, и контекст и намерения.
Сублиминальное обучение представляет собой попытку формализовать сигналы, которые формально не предназначены для передачи информации, но всё равно используются моделью. Это может быть порядок элементов, структура задачи, повторяющиеся шаблоны или статистические смещения, которые человек воспринимает как технические незначительные детали.
Иногда такие сигналы начинают работать почти как косвенные метки: вроде прямого ответа в данных и нет, но организация задачи или контекст подталкивает модель к определенному способу решения. Для неё это выглядит как дополнительная подсказка, пусть и неявная, но всё же рабочая.
Интересно это сопоставить с техникой chain-of-thought. В классическом виде мы прямо просим модель рассуждать пошагово. В сублиминальном обучении прямых инструкций нет, но модель может использовать скрытые сигналы, чтобы внутренне построить аналогичную цепочку рассуждений.
А вот подпороговые подсказки (повторяющиеся структуры в коде, систематические сдвиги в числовых данных, однотипные форматы заданий) могут незаметно влиять на обучение и стратегии модели. В своей работе исследователи доказали, что сублиминальное обучение возможно в любой нейросети при определенных условиях.
Исследователи выстроили эксперимент так, чтобы исключить любое тривиальное объяснение результата. В основе эксперимента была модель-источник с заданным поведенческим признаком. Далее эта модель генерировала датасет, который формально не содержал ничего, что напрямую указывало бы на этот признак. Например, в качестве таких данных использовались числовые последовательности или синтаксически нейтральные фрагменты кода.
Все явные упоминания поведенческого признака заранее удалялись для того, чтобы исключить возможность прямого обучения. В данных не осталось очевидных инструкций или семантических подсказок. На уровне смысла этот датасет выглядел полностью нерелевантным. Затем на этих данных обучалась другая модель. Если после обучения она начинала демонстрировать тот же поведенческий признак, что и модель-источник, это означало, что информация была передана неявно, через структуру и статистические особенности данных.
Чтобы проверить устойчивость эффекта, авторы использовали несколько типов датасетов: скрытая информация кодировалась в структуре числовых последовательностей; в порядке элементов и синтаксисе кода8 в заданиях, связанных с рассуждением, где модель могла уловить косвенные намеки на стратегию решения, даже если прямых инструкций «думать пошагово» не было.
Эффект оценивался не по одному показателю. Авторы смотрели, насколько точно модель выполняет задачи, воспроизводит ли поведенческий признак учителя, устойчива ли к добавлению шума и способна ли переносить усвоенные паттерны на новые задачи. Эти результаты сравнивались с контрольными наборами данных, в которых отсутствовали скрытые сигналы. Разница между ними и служила основным индикатором сублиминального обучения.
Эксперименты показали, что эффект сублиминального обучения нельзя списать на случайность или шум. Когда в данных были скрытые сигналы, модели стабильно показывали лучшие результаты по сравнению с контрольными наборами, в которых таких сигналов не было. Это касалось сразу нескольких типов задач.
На задачах, связанных с рассуждением, модели чаще и более последовательно приходили к правильному ответу. Даже без явных инструкций думать пошагово они выстраивали внутреннюю логику решения, близкую к той, что демонстрировала модель-источник.
В генеративных задачах модель начинала воспроизводить стиль или стратегию ответов учителя, несмотря на отсутствие прямых на то указаний. Это проявлялось в выборе формулировок, способе аргументации или характерной структуре текста. Фактически поведенческий признак передавался без явных меток, только за счет статистики и структуры данных.
Одним из самых интересных результатов оказался перенос между задачами. Паттерны, усвоенные в одном формате данных, могли использоваться также и в других. Например, структура, заложенная в числовых последовательностях, помогала модели лучше справляться с задачами на логические рассуждения. Это указывало на то, что сублиминальное обучение формирует общий механизм извлечения информации.
Дело в том, что такие сигналы не должны напрямую кодировать правильный ответ. Если информация передается слишком явно, это уже не сублиминальное обучение, а обычная подсказка. Сила эффекта именно в его косвенности, когда модель извлекает закономерность не из смысла данных, а из их формы и статистики.
С этим напрямую связаны риски ложных зависимостей. Если модель начинает полагаться на скрытые сигналы, она может усвоить не ту закономерность, которую хотел передать исследователь, а случайный артефакт. Например, форматирование текста, порядок примеров или технические особенности генерации датасета могут начать работать как метки, хотя по сути не несут полезной информации. В результате модель продемонстрирует улучшение на тестах, но окажется слабой вне экспериментальных условий.
Чтобы говорить о реальном эффекте, необходимо показать, что разные модели и датасеты приводят к схожим результатам. Для этого требуется строгий контроль, как например, удаление явных сигналов, тестирование на независимых наборах данных и сравнение с контрольными условиями. Без этих мер легко получить ложноположительный результат, когда модель просто подхватит случайный паттерн.
Также авторы также отмечают, что эффект сублиминального обучения проявляется не всегда.
Если модель способна усваивать поведение из сигналов, которые мы не считаем информацией, то возникает вопрос, можем ли мы вообще быть уверены, чему именно она научилась? Даже при аккуратной очистке данных и удалении явных инструкций остается риск, что модель перенимет стратегии и зависимости, которые никто не планировал в неё закладывать. Это подводит нас к вопросу об интерпретируемости. Когда модель демонстрирует определенное поведение, становится сложно объяснить, откуда оно взялось. Источник может находиться не в смысловом содержании данных, а в их структуре или статистике. В такой ситуации привычные инструменты анализа оказываются недостаточными. Чтобы обнаружить скрытые зависимости, нужны специальные проверки и стресс-тесты. Без них можно даже не заметить, что модель опирается на подпороговые подсказки.
Особенно чувствительными оказываются прикладные области. В медицине скрытые сигналы могут привести к тому, что модель начнет ассоциировать определенные форматы данных с диагнозами, не имея на то клинических оснований. В финансовых системах подпороговые подсказки способны исказить прогнозы или рекомендации. В обоих случаях цена ошибки выходит далеко за рамки качества модели как такового.
Исследование показывает, что большие языковые модели способны извлекать знания из скрытых сигналов. В результате, обучение модели оказывается менее прозрачным, чем принято считать.
Если модели учатся даже на том, что мы считаем шумом, можем ли мы действительно контролировать их обучение?
Размещайте облачную инфраструктуру и масштабируйте сервисы с надежным облачным провайдером Beget.
Эксклюзивно для читателей Хабра мы даем бонус 10% при первом пополнении.
Источник


