Abstracto y 1. Introducción
Trabajo Relacionado
2.1 Vision-LLMs
2.2 Ataques Adversarios Transferibles
Preliminares
3.1 Revisión de Vision-LLMs Auto-Regresivos
3.2 Ataques Tipográficos en Sistemas AD basados en Vision-LLMs
Metodología
4.1 Auto-Generación de Ataque Tipográfico
4.2 Aumentos de Ataque Tipográfico
4.3 Realizaciones de Ataques Tipográficos
Experimentos
Conclusión y Referencias
Habiendo demostrado la competencia de los Modelos de Lenguaje Grandes (LLMs) en el razonamiento a través de varios puntos de referencia del lenguaje natural, los investigadores han extendido los LLMs con codificadores visuales para soportar la comprensión multimodal. Esta integración ha dado lugar a varias formas de Vision-LLMs, capaces de razonar basándose en la composición de entradas visuales y de lenguaje.
\ Pre-entrenamiento de Vision-LLMs. La interconexión entre LLMs y modelos de visión pre-entrenados implica el pre-entrenamiento individual de codificadores unimodales en sus respectivos dominios, seguido de un entrenamiento conjunto a gran escala de visión-lenguaje [17, 18, 19, 20, 2, 1]. A través de un corpus de lenguaje visual entrelazado (por ejemplo, MMC4 [21] y M3W [22]), los modelos auto-regresivos aprenden a procesar imágenes convirtiéndolas en tokens visuales, combinándolos con tokens textuales, e introduciéndolos en LLMs. Las entradas visuales son tratadas como un idioma extranjero, mejorando los LLMs tradicionales de solo texto al permitir la comprensión visual mientras mantienen sus capacidades lingüísticas. Por lo tanto, una estrategia de pre-entrenamiento directa puede no estar diseñada para manejar casos donde el texto de entrada está significativamente más alineado con textos visuales en una imagen que con el contexto visual de esa imagen.
\ Vision-LLMs en Sistemas AD. Los Vision-LLMs han demostrado ser útiles para la percepción, planificación, razonamiento y control en sistemas de conducción autónoma (AD) [6, 7, 9, 5]. Por ejemplo, trabajos existentes han evaluado cuantitativamente las capacidades lingüísticas de los Vision-LLMs en términos de su confiabilidad para explicar los procesos de toma de decisiones de AD [7]. Otros han explorado el uso de VisionLLMs para maniobras vehiculares [8, 5], y [6] incluso validó un enfoque en entornos físicos controlados. Debido a que los sistemas AD involucran situaciones críticas de seguridad, los análisis exhaustivos de sus vulnerabilidades son cruciales para un despliegue e inferencia confiables. Sin embargo, las adopciones propuestas de Vision-LLMs en AD han sido directas, lo que significa que los problemas existentes (por ejemplo, vulnerabilidades contra ataques tipográficos) en tales modelos probablemente estén presentes sin contramedidas adecuadas.
\
:::info Autores:
(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapur y VNU-HCM, Vietnam;
(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapur y Universidad de Nankai, China;
(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapur y HKUST, HKSAR;
(4) Jie Zhang, Universidad Tecnológica de Nanyang, Singapur;
(5) Aishan Liu, Universidad de Beihang, China;
(6) Yun Lin, Universidad Jiao Tong de Shanghai, China;
(7) Jin Song Dong, Universidad Nacional de Singapur, Singapur;
(8) Qing Guo, CFAR e IHPC, A*STAR, Singapur y Universidad Nacional de Singapur, Singapur.
:::
:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
:::
\


