Резюме и 1. Введение
Связанные работы
2.1 Vision-LLMs
2.2 Переносимые состязательные атаки
Предварительные сведения
3.1 Пересмотр авторегрессивных Vision-LLMs
3.2 Типографические атаки в системах AD на основе Vision-LLMs
Методология
4.1 Автоматическая генерация типографической атаки
4.2 Дополнения типографической атаки
4.3 Реализации типографических атак
Эксперименты
Заключение и ссылки
Продемонстрировав профессионализм больших языковых моделей (LLMs) в рассуждениях по различным эталонам естественного языка, исследователи расширили LLMs визуальными кодировщиками для поддержки мультимодального понимания. Эта интеграция привела к появлению различных форм Vision-LLMs, способных рассуждать на основе композиции визуальных и языковых входных данных.
\ Предварительное обучение Vision-LLMs. Взаимосвязь между LLMs и предварительно обученными моделями зрения включает индивидуальное предварительное обучение унимодальных кодировщиков в их соответствующих доменах, за которым следует крупномасштабное совместное обучение зрения и языка [17, 18, 19, 20, 2, 1]. Через переплетенный визуально-языковой корпус (например, MMC4 [21] и M3W [22]), авторегрессивные модели учатся обрабатывать изображения, преобразуя их в визуальные токены, комбинируя их с текстовыми токенами и вводя их в LLMs. Визуальные входные данные рассматриваются как иностранный язык, улучшая традиционные текстовые LLMs путем обеспечения визуального понимания при сохранении их языковых возможностей. Следовательно, простая стратегия предварительного обучения может не быть разработана для обработки случаев, когда входной текст значительно больше соответствует визуальным текстам на изображении, чем визуальному контексту этого изображения.
\ Vision-LLMs в системах AD. Vision-LLMs оказались полезными для восприятия, планирования, рассуждения и управления в системах автономного вождения (AD) [6, 7, 9, 5]. Например, существующие работы количественно оценили лингвистические возможности Vision-LLMs с точки зрения их надежности в объяснении процессов принятия решений AD [7]. Другие исследовали использование VisionLLMs для маневрирования транспортных средств [8, 5], а [6] даже подтвердил подход в контролируемых физических средах. Поскольку системы AD связаны с критически важными для безопасности ситуациями, всесторонний анализ их уязвимостей имеет решающее значение для надежного развертывания и вывода. Однако предложенные внедрения Vision-LLMs в AD были простыми, что означает, что существующие проблемы (например, уязвимости к типографическим атакам) в таких моделях, вероятно, присутствуют без надлежащих контрмер.
\
:::info Авторы:
(1) Nhat Chung, CFAR и IHPC, A*STAR, Сингапур и VNU-HCM, Вьетнам;
(2) Sensen Gao, CFAR и IHPC, A*STAR, Сингапур и Нанкайский университет, Китай;
(3) Tuan-Anh Vu, CFAR и IHPC, A*STAR, Сингапур и HKUST, HKSAR;
(4) Jie Zhang, Наньянский технологический университет, Сингапур;
(5) Aishan Liu, Бэйханский университет, Китай;
(6) Yun Lin, Шанхайский университет Цзяо Тун, Китай;
(7) Jin Song Dong, Национальный университет Сингапура, Сингапур;
(8) Qing Guo, CFAR и IHPC, A*STAR, Сингапур и Национальный университет Сингапура, Сингапур.
:::
:::info Эта статья доступна на arxiv по лицензии CC BY 4.0 DEED.
:::
\


