Существует широко распространенное убеждение, что если ИИ-модель обучена на достаточном количестве достоверных данных, любая «ядовитая» информация в системе будет растворена до состояния полной безвредности.
К сожалению, это убеждение ошибочно, что убедительно доказывает совместное исследование Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга. Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор (скрытую уязвимость) в большие языковые модели (LLM), независимо от их размера.
Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет этот феномен с необычной для корпоративных коммуникаций откровенностью и ясностью: внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером. Выбранный ими эксперимент не самый зрелищный, но, парадоксальным образом, он делает все происходящее более пугающим: это бэкдор типа «отказ в обслуживании», который при обнаружении ключевого слова заставляет модель генерировать бессмыслицу, как будто она сломалась изнутри. Это не атака, разработанная для уничтожения модели, кражи денег или влияния на выборы: по большей части это демонстрация контроля в духе «я могу заставить вашу модель делать это по моему желанию».
Важная деталь здесь - не бессмыслица, а метрики. До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов. Это исследование переворачивает все с ног на голову: модели обучались на объемах от 600 миллионов до 13 миллиардов параметров с использованием оптимального по правилу Chinchilla количества данных (больше для более крупных моделей), и было замечено, что атака не масштабируется вместе с размером: одни и те же 250 документов одинаково компрометировали все модели. По сути, яд не растворяется, как ожидалось: он учится выживать.
Это создает системную хрупкость. LLM в основном обучаются на открытых текстах из интернета, и Институт Тьюринга подчеркивает последствия: любой может разместить контент с намерением попасть в эти наборы данных, и если фактический порог составляет около 250 документов, барьер для входа не особенно высок. Вам не нужно контролировать какую-то часть интернета: достаточно просто найти трещины в цепочке поставок данных. И вот ключевой момент: в 2026 году опасения по поводу LLM касаются уже не только галлюцинаций или предвзятости, но и целостности. Откуда берется то, что модель «знает»? Кто вмешался в процесс? Какие есть стимулы для вмешательства? Может ли это стать способом захвата контроля над нарративами?
На самом деле, бэкдор с генерацией бессмыслицы - это почти игрушка по сравнению с тем, что уже обнаружено в научной литературе: бэкдоры для снижения безопасности, провоцирования вредоносного поведения или обхода систем согласования (alignment). Сама статья Anthropic ссылается на исследования бэкдоров, которые работают как своего рода универсальная команда для получения вредоносных ответов при появлении определенного триггера. Любой, кто думает: «Это проблема согласования и RLHF, а не предварительного обучения», ошибается: сквозной урок абсолютно тот же. В системе, которая учится коррелировать, намеренно заложенная вредоносная корреляция может оказаться более устойчивой, чем миллионы безобидных.
Самые тревожные параллели возникают при переходе к областям, где цена ошибки - это не мем, а потенциально человеческие жизни. В 2024 году исследование в Nature Medicine смоделировало атаку отравления на The Pile, один из флагманских наборов данных экосистемы, путем внедрения медицинской дезинформации: при замене всего 0,001% токенов на правдоподобную ложь получившаяся модель стала более склонна к распространению медицинских ошибок, и самое худшее, что она по-прежнему, казалось бы, «работала так же хорошо» в бенчмарках.
Это разрушает еще одну широко распространенную фантазию: что «объективная» оценка нас спасет. Если атака целенаправленная, если она разработана для активации по триггеру или для влияния на определенное подмножество вопросов, модель может пройти все обычные тесты и при этом оставаться скомпрометированной. В сфере безопасности об этом говорят десятилетиями: системы, которые «кажутся» правильными в нормальных условиях, дают сбой, когда кто-то знает, как нажать нужную кнопку. Что нового, так это то, что теперь эта система пишет, советует, программирует, резюмирует, ведет переговоры, переводит и все чаще выступает в роли когнитивного посредника в тысячах человеческих решений.
Кстати, о принятии решений. Пока ученые бьются над безопасностью огромных моделей, бизнесу и разработчикам уже сегодня нужны надежные инструменты для работы.
Сервисы вроде BotHub дают возможность экспериментировать с различными топовыми моделями ИИ в одном окне. Если вы сомневаетесь в ответе одной модели, вы всегда можете перепроверить его в другой.
Для доступа не требуется VPN, можно использовать российскую карту.
Поэтому неудивительно, что недавние системы оценки рисков уже явно включают эту угрозу. OWASP в своем списке рисков для приложений с LLM определяет Data and Model Poisoning (Отравление данных и моделей) как вектор нарушения целостности с четкими последствиями: бэкдоры, намеренно внедренные предубеждения, деградация поведения и атаки, которые трудно обнаружить, потому что модель может вести себя «нормально», пока не будет спущен курок. А таксономия NIST по состязательному машинному обучению (adversarial machine learning) включает такие категории, как отравление бэкдорами и атаки на цепочки поставок, чтобы заставить индустрию мыслить категориями жизненных циклов, а не просто текущей модели. Когда самые надежные органы по стандартизации начинают говорить подобным образом, это обычно означает, что проблема перестала быть теоретической и стала правдоподобным риском.
Вопрос уже не в том, может ли это нанести ущерб репутации LLM, а в том, что происходит с их достоверностью по мере того, как они становятся инфраструктурой для все большего количества вещей. Потому что если мы признаем, что модель может быть обучена на непрозрачных данных с неясным происхождением и несовершенным контролем, и что терпеливый злоумышленник может внедрить несколько десятков или сотен фрагментов, предназначенных для выживания в этом процессе, то модель перестает быть просто вероятностной и становится потенциально фальсифицированной. И здесь социальный контракт меняется: система, которая «иногда ошибается», управляема, но система, которой можно манипулировать без каких-либо видимых признаков, становится политически токсичной и очень сложной для регулирования.
Есть ли выход? Есть, но он не удобен и не дешев, и уж точно не вписывается в культуру «двигайся быстро и ломай вещи» (move fast and break things), которая привела нас к этой точке. То, что исследование требует от нас признать, заключается в следующем: LLM нуждаются в том, что мы годами принимали как должное в программном обеспечении - в цепочке поставок с механизмами контроля, аудита, прослеживаемости и верификации. Недостаточно просто отфильтровать «плохой контент» или удалить дубликаты. Мы говорим о проверяемом происхождении, воспроизводимых процессах курирования, мониторинге аномалий во время обучения, тестах, разработанных для обнаружения условного поведения, непрерывном red teaming (тестировании на проникновение) и признании того, что определенные критические варианты использования потребуют гораздо более закрытых, специализированных и контролируемых моделей и наборов данных. А это стоит денег.
Не будем обманывать себя: это не какой-то баг, который можно исправить патчем. Это симптом более глубокой реальности: мы строим машины статистического обобщения на информационной подложке - веб-пространстве, которое все больше напоминает поле битвы, усеянное трупами и мусором. Если обучение означает поглощение интернета, то безопасность вашей модели зависит от безопасности интернета, а это очень опасно, потому что мы все знаем, что там находится. Статья Anthropic - это предупреждение: в грядущем мире ответ на вопрос, могу ли я доверять тому, что говорит конкретная модель, будет лежать не в плоскости метрик точности, а в гораздо более неудобной плоскости: «Могу ли я доверять тому, как она была создана, данным, на которых она обучалась, и тем, кто с этими данными работал?»
Источник


