ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системамИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

2026/02/11 13:00
9м. чтение
eab509cc9fc558cde6a807af914cc0ea.png

ИИ-ассистенты все чаще используются не только как вспомогательные инструменты, но и как часть корпоративных процессов — с доступом к данным, внутренним системам и инфраструктуре. При этом многие защитные решения, которые кажутся надежными, на практике оказываются уязвимыми для промт-инъекций — атак, заставляющих модель раскрывать информацию, которую она не должна выдавать.

Сегодня не существует универсальных методов, полностью исключающих промт-инъекции в LLM. Это делает их источником долгосрочных рисков для организаций, проходящих ИИ-трансформацию. Проблема актуальна не только для IT- и ИБ-специалистов, но и для обычных пользователей. Теория подробно описана, однако без практики ее сложно воспринимать как реальную угрозу.

На связи Андрей Давид, руководитель отдела продуктов клиентской безопасности в Selectel. В статье разберем, почему такие атаки остаются актуальной угрозой для LLM-приложений и как на практике выглядит их эксплуатация — на примере обучающей игры «Защищ[AI]». Это «интерактивный киберполигон», где можно безопасно попробовать атаковать ИИ-ассистента и увидеть, почему одних «запретов в системном промте» недостаточно.

Используйте навигацию, если не хотите читать текст полностью:
  • Суть игры

  • Немного теории о промт-инъекциях

  • Схема игры и подход к взлому

  • Повышение осведомленности в вопросах AI Security

  • Каким может быть шестой уровень

  • В чем практическая польза от игры

  • Вместо вывода

Суть игры

Суть игры-симулятора проста: вы — хакер, а ваш противник — корпоративный ИИ-ассистент. К слову, он работает на реальной модели DeepSeek R3. Помимо инструкций со списком задач у него есть «секретный пароль», который ассистент ни при каких обстоятельствах не должен разглашать.

Ваша задача как игрока — обойти защиту ИИ-ассистента, используя промт-инъекции и jailbreak-техники, чтобы выманить этот пароль (условный набор символов, например pass12345).

«Защищ[AI]» выступает в роли безопасной песочницы для демонстрации уязвимости OWASP LLM01 (промт-инъекция). На практике игра показывает два важных вывода:

  • приложения, использующие LLM, требуют дополнительных уровней защиты;

  • хранение конфиденциальных данных в системном промте создает прямой риск их утечки.

Скриншот интерфейса платформы http://aiinsec.ru.
Скриншот интерфейса игры.

Немного теоретической базы о промт-инъекциях

Промт-инъекция — это специально сформулированный запрос или последовательность запросов, которые приводят к обходу механизмов выравнивания языковой модели и нарушению заданных ограничений поведения. Но для полноценного понимания природы промт-инъекций важно кратко рассмотреть, как создаются модели машинного обучения. Если вам интересна исключительно реализация игры и вы уже знакомы с теорией, то милости просим сразу в следующий раздел.

Обучение LLM условно делится на несколько этапов. В контексте промт-инъекций ключевыми являются два из них.

1. Предварительное обучение (pretraining). На этом этапе модель обучается на больших массивах текстов и осваивает статистические закономерности языка: структуру предложений, стиль, распространенные факты и шаблоны рассуждений. После предварительного обучения модель не «отвечает на вопросы», а лишь продолжает текст наиболее вероятным образом.

К слову, самостоятельно выполняют обучение моделей буквально десятки или сотни компаний в мире. Остальные же либо лишь дообучают open source-модели, либо, как бывает чаще, используют open source-модели в корпоративных системах без дополнительного обучения. В первую очередь это связано с повышением качества и «универсальности» open source-моделей, но также со стоимостью IT-инфраструктуры, которая необходима для выравнивания и тем более предварительного обучения.

2. Выравнивание (alignment). Чтобы модель стала полезным ассистентом, ее дополнительно обучают следовать инструкциям человека, отвечать связно и соблюдать ограничения безопасности. Alignment накладывает поведенческие ограничения: что можно и нельзя отвечать, какие темы обходить, какую роль исполнять.

После отправки запроса текст преобразуется в токены — числовые представления, с которыми работает нейросеть.

Схема преобразования промта при работе с LLM: текст → токены → векторы → нейросеть.
Преобразования промта при работе с LLM.

LLM, получив на вход последовательность токенов, вычисляет вероятности следующего токена и на их основе формирует ответ. Таким образом, все инструкции — и пользовательские, и системные — в итоге превращаются в единый токенизированный вид, а далее — в цифровой, с которым уже работает нейросеть. Для наглядного понимания токенизации можно использовать официальный инструмент OpenAI Tokenizer.

Разбор предложения «Привет из статьи Selectel!» на токены с помощью инструмента platform.openai.com/tokenizer.

Большие языковые модели получают на вход текст в токенизированном виде и выдают вероятность встретить тот или иной токен следующим. Таким образом, LLM после стадии pretraining, обучившись на огромном количестве текстов из интернета, понимают правила построения предложений, обладают общими знаниями, например, о книгах и любых других материалах, на которых прошло обучение. После этой стадии модель умеет продолжать тексты так, как это было в обучающей выборке.

Если взять большую языковую модель сразу после обучения на данных из интернета, она еще не будет хорошим помощником. Такая LLM не сможет «отвечать» на вопрос — вместо этого она просто продолжит текст, так что в ответе модели будут артефакты в духе «следующий абзац…»

Чтобы такая модель начала вести себя как ассистент, нужно специальное дообучение. Этот процесс и называется alignment, о котором мы рассказывали выше. Его цель — сделать так, чтобы ответы модели соответствовали ожиданиям человека, были понятными, полезными и в том числе безопасными.

Таким образом, alignment задает желаемое поведение, но не гарантирует его соблюдение. Промт-инъекция использует это ограничение, заставляя модель нарушить выравнивание.

Схема: вредоносный промпт → LLM обрабатывает промпт с вредоносными инструкциями → модель выполняет несанкционированные команды.

Почему защита от промт-инъекций — сложная задача

Безопасность GenAI находится на ранней стадии развития. Специалисты по информационной безопасности и энтузиасты регулярно выявляют новые техники и тактики атак на приложения, использующие LLM.

При этом между вредоносными и обычными промтами могут быть существенные пересечения. Иногда они могут даже совпадать, поэтому анализ контекста и ответы системы имеют решающее значение для различения намерений.

Как это работает: схема игры и подход к взлому

Игра наглядно демонстрирует механизм промт-инъекции:

Устройство игры aiinsec.ru в схематичном виде: пользователь → промт → системный промт → DeepSeek → ответ.

Пользовательский запрос не обрабатывается изолированно. Перед генерацией ответа он смешивается с системным промтом — скрытой инструкцией, задающей поведение ассистента, его роль, ограничения и содержащей чувствительные данные (в данном случае — секретный пароль). Если входящий промт сформулирован с целью атаки LLM, он может переопределить приоритеты инструкций, заставить модель игнорировать ограничения, а также привести к утечке секрета или раскрытию всего системного промта.

В игре реализовано несколько уровней сложности. На начальных уровнях ассистент практически не защищен и даже может сам подсказывать способы обхода ограничений. На пятом уровне применяются специальные преднастроенные фильтры для анализа пользовательских запросов и ответов модели. Фильтры определяют, содержится ли нежелательная информация в тексте, и автоматически блокируют нежелательные запросы пользователей, а также ответы LLM.

Помимо прочего, в игре установлены лимиты на общее количество отправленных сообщений. Они рассчитаны так, чтобы прохождение всех уровней было возможно, однако в зависимости от стратегии пользователь может исчерпать лимит токенов и столкнуться с ограничениями. Столкнувшись с обратной связью ИБ-сообщества, мы уже увеличили лимит с 1 000 до 2 000 токенов, но если ваша тактика предполагает большую нагрузку или вы столкнулись с другими сложностями — добро пожаловать в комментарии или личные сообщения на Хабре!

Скриншоты постов с обратной связью от IT-сообщества.
Часть обратной связи от сообщества.
9fc7b38868b17ae0e475e2f2c4920e44.gif

Security Center

Рассказываем о лучших практиках и средствах ИБ, требованиях и изменениях в законодательстве.

Исследовать →

Техническая реализация

На реализацию ушло примерно два месяца работы, включая проектирование, разработку, тестирование и деплой. За это время были реализованы базовая игровая механика, серверная логика, интеграция с базой данных, сборка и доставка через Docker, а также настройка окружения с nginx на сервере.

Прототип игры.
Прототип игры.
66a0837dddb3893b5bf09981ce9863ba.png
Леонид З.

Разработчик

Повышение осведомленности в вопросах AI Security

Видеоряд со стендом на конференции.
Стенд с игрой на конференции Tech Day.

Игра «Защищ[AI]» была создана как интерактивный элемент стенда Security Center на флагманской конференции Selectel Tech Day 2025 и быстро привлекла внимание посетителей.

a4053860176aa282ef58b2256e1876e1.png

Среди самых креативных попыток взлома — запросы, где пользователи предлагали модели переопределить свою роль — например, стать тостером. Что самое интересное, на некоторых уровнях модель поддавалась и начинала рассказывать «как взломать тостер», выдавая при этом конфиденциальную информацию.

Этот опыт наглядно демонстрирует, что манипулировать поведением LLM можно даже без экспертных знаний в области машинного обучения. При этом часть участников прибегала к помощи коллег-специалистов по ML, и коллективные попытки «переиграть» ИИ-ассистента вызывали еще больший интерес у аудитории.

За последние месяцы стенд с игрой aiinsec.ru также использовался в рамках профильных мероприятий, включая AI Security MeetUP и митап Pitch the Future. Med AI. При этом многие участники формулировали общую проблему, с которой сталкиваются разработчики LLM-приложений.

a0fe9d7d0a5f697094f702a864a3c87c.png
Посетитель конференции и участник игры «Защищ[AI]»

Другой важный вывод, который часто звучал в обсуждениях:

«Внедрение искусственного интеллекта и сервисов которые используют LLM в корпоративные системы требует дополнительного обучения пользователей. Потому что уж очень просто, используя новые технологии, получать несанкционированный доступ к информации, которая кажется защищенной».

Каким может быть шестой уровень

В перспективных планах — запуск шестого уровня, ориентированного на противостояние более зрелым механизмам защиты. В этом уровне предполагается использование AI Guardrails — специализированных моделей и правил, предназначенных для анализа входящих запросов.

Задача guardrails — классифицировать пользовательские промты и определять, содержат ли они признаки промт-инъекций или других опасных инструкций, с последующей блокировкой или модификацией запроса.

Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM. Входная фильтрация → ИИ-приложение → фильтрация ответа.
Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM.

Использование guardrails отражает общий тренд в индустрии AI Security — переход к многоуровневой защите LLM-приложений. Это важный шаг в сторону более безопасных корпоративных решений, однако он не устраняет проблему полностью.

Разработчики фактически пытаются защищать модели машинного обучения с помощью других ML-моделей, которые потенциально подвержены тем же классам атак. Это оставляет значительное пространство для исследований и инженерных экспериментов.

В чем практическая польза игры

Внедрение LLM в бизнес-процессы требует не только технических мер защиты, но и повышения осведомленности пользователей. Любой сотрудник, взаимодействующий с корпоративным ИИ-ассистентом, потенциально становится точкой входа для промт-инъекции.

Обучение не может ограничиваться инструкциями и формальными запретами. Гораздо эффективнее показывать риски на практике — на примерах, подобных игре «Защищ[AI]», где видно, насколько легко можно нарушить ограничения модели. Технологии развиваются быстро, но человеческий фактор по-прежнему остается ключевым элементом цепочки безопасности, особенно сейчас, когда существующие меры безопасности не дают гарантий защиты.

1. Распознавание промт-инъекций

Пользователь, понимающий природу промт-инъекций, способен критически оценивать шаблоны промтов, скопированные из интернета, а также сторонние инструкции и примеры запросов. Осознание того, что атакующие инструкции могут быть скрыты прямо в тексте запроса, помогает своевременно выявлять угрозы и снижать риск компрометации модели.

2. Осознанное отношение к рискам

Промт-инъекции могут встречаться не только в чатах с ИИ-ассистентами. Они могут быть встроены в PDF-файлы, веб-страницы, к которым получает доступ браузер с ИИ-функциями, а также в инструменты разработки — IDE, агентные системы и подключаемые правила или навыки (например, в Cursor, Cline и аналогичных инструментах).

Особую опасность представляют многострочные, плохо читаемые или намеренно усложненные инструкции. В таком формате атакующие промты легче замаскировать под служебный текст или конфигурацию.

Проверка источников, понимание контекста и осторожное отношение к готовым решениям остаются обязательными условиями безопасной работы с LLM.

3. Безопасная тренировочная среда

Эксперименты с промтами и намеренно вредоносными сценариями в контролируемой среде позволяют безопасно понять, почему ИИ-ассистент иногда действует вне ожиданий пользователя или замысла разработчика.

Такая практика повышает цифровую гигиену и зрелость работы с ИИ. Это особенно важно для обычных пользователей, которые могут неосознанно загружать в корпоративные ИИ-сервисы тексты, файлы или изображения, содержащие промт-инъекции.

4. Вовлеченность и игровой формат

Игровая форма делает обучение менее формальным и более вовлекающим. Стохастическая природа языковых моделей приводит к неожиданным и наглядным результатам, которые лучше закрепляют понимание рисков и принципов работы LLM.

В результате безопасность перестает восприниматься как абстрактное требование и становится частью практического опыта.

9fc7b38868b17ae0e475e2f2c4920e44.gif

Позаботимся о безопасности ваших систем

Подберем инфраструктуру, организуем сеть, защитим серверы и возьмем все трудности миграции на себя →

Вместо вывода

Промт-инъекции — это не экзотическая уязвимость, а долгосрочный источник риска для компаний, проходящих «ИИ-трансформацию», который связан с самой природой LLM. Игра «Защищ[AI]» позволяет понять на практических примерах, почему безопасность ИИ-систем требует сочетания технических мер, обучения и осознанного использования приложений, в работе которых применяется ИИ.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Не искусственный интеллект: как устроена научная работа в российских ИИ-лабораториях в 2026

Не искусственный интеллект: как устроена научная работа в российских ИИ-лабораториях в 2026

Ежегодно 8 февраля в России отмечают День науки — праздник людей, которые открывают новые законы природы, создают технологии и делают нашу жизнь проще и интерес
Поделиться
ProBlockChain2026/02/12 12:16
Кошелёк Биткоина эпохи Сатоши Mt. Gox с 1 000 Биткоинов внезапно реактивирован

Кошелёк Биткоина эпохи Сатоши Mt. Gox с 1 000 Биткоинов внезапно реактивирован

Пост «Кошелёк эпохи Сатоши Mt. Gox с 1 000 Биткоин внезапно реактивирован» появился на BitcoinEthereumNews.com. Аккаунт X @SaniExp, принадлежащий основателю проводника блокчейна Timechain Index, опубликовал данные, показывающие, что неактивный кошелёк BTC был активирован после шести лет бездействия. Однако, согласно твиту, он был создан 13 лет назад — во времена, когда тень Сатоши Накамото, так сказать, все еще витала вокруг. Пост в X утверждает, что твит принадлежит печально известной ранней бирже Биткоин Mt. Gox, которая пострадала от крупного взлома в начале 2010-х годов, а в прошлом году начала выплачивать компенсации клиентам, потерявшим свою криптовалюту при этом взломе. Срок был в итоге продлен до октября 2025 года. Кошелёк Mt. Gox с 1 000 BTC реактивирован Вышеупомянутый источник данных поделился скриншотом из проводника блокчейна Timechain Index, показывающим несколько транзакций, отмеченных как подтвержденные и перемещающих в общей сложности 1 000 Биткоинов. Эта сумма криптовалюты оценивается в 116 195 100 $ на момент инициирования транзакции. В прошлом году Mt. Gox начала перемещать остатки своих гигантских средств для выплаты компенсаций своим кредиторам. Ранее в этом году она также совершила несколько массивных транзакций на партнерские биржи для распределения средств инвесторам Mt. Gox. Все компенсации обещано выплатить до 31 октября 2025 года. Вышеупомянутая транзакция, вероятно, является подготовкой к очередной выплате. Биржа подвергалась взлому в течение нескольких лет из-за множества незамеченных нарушений безопасности, и в 2014 году, когда сайт перестал работать, было сообщено о краже 744 408 Биткоинов. Источник: https://u.today/satoshi-era-mtgoxs-1000-bitcoin-wallet-suddenly-reactivated
Поделиться
BitcoinEthereumNews2025/09/18 10:18
Капитуляция состоялась: в K33 назвали $60 000 локальным дном биткоина

Капитуляция состоялась: в K33 назвали $60 000 локальным дном биткоина

Падение биткоина к отметке $60 000 могло стать локальным дном. Аналитики K33 Research зафиксировали признаки капитуляции инвесторов одновременно на спотовом рын
Поделиться
ProBlockChain2026/02/12 12:33