Buy Crypto Markets Spot FuturesGOLD Earn Event Center

Este artículo revisa el desarrollo y la aplicación de los Modelos de Lenguaje Grande con Visión, centrándose en su integración en sistemas de conducción autónoma.Este artículo revisa el desarrollo y la aplicación de los Modelos de Lenguaje Grande con Visión, centrándose en su integración en sistemas de conducción autónoma.

La Integración de Vision-LLMs en Sistemas AD: Capacidades y Desafíos

Fuente: Hackernoon

2025/09/28 04:00

Lectura de 3 min

Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Tabla de Enlaces

Abstracto y 1. Introducción

Trabajo Relacionado

2.1 Vision-LLMs

2.2 Ataques Adversarios Transferibles
Preliminares

3.1 Revisión de Vision-LLMs Auto-Regresivos

3.2 Ataques Tipográficos en Sistemas AD basados en Vision-LLMs
Metodología

4.1 Auto-Generación de Ataque Tipográfico

4.2 Aumentos de Ataque Tipográfico

4.3 Realizaciones de Ataques Tipográficos
Experimentos
Conclusión y Referencias

2 Trabajo Relacionado

2.1 Vision-LLMs

Habiendo demostrado la competencia de los Modelos de Lenguaje Grandes (LLMs) en el razonamiento a través de varios puntos de referencia del lenguaje natural, los investigadores han extendido los LLMs con codificadores visuales para soportar la comprensión multimodal. Esta integración ha dado lugar a varias formas de Vision-LLMs, capaces de razonar basándose en la composición de entradas visuales y de lenguaje.

\ Pre-entrenamiento de Vision-LLMs. La interconexión entre LLMs y modelos de visión pre-entrenados implica el pre-entrenamiento individual de codificadores unimodales en sus respectivos dominios, seguido de un entrenamiento conjunto a gran escala de visión-lenguaje [17, 18, 19, 20, 2, 1]. A través de un corpus de lenguaje visual entrelazado (por ejemplo, MMC4 [21] y M3W [22]), los modelos auto-regresivos aprenden a procesar imágenes convirtiéndolas en tokens visuales, combinándolos con tokens textuales, e introduciéndolos en LLMs. Las entradas visuales son tratadas como un idioma extranjero, mejorando los LLMs tradicionales de solo texto al permitir la comprensión visual mientras mantienen sus capacidades lingüísticas. Por lo tanto, una estrategia de pre-entrenamiento directa puede no estar diseñada para manejar casos donde el texto de entrada está significativamente más alineado con textos visuales en una imagen que con el contexto visual de esa imagen.

\ Vision-LLMs en Sistemas AD. Los Vision-LLMs han demostrado ser útiles para la percepción, planificación, razonamiento y control en sistemas de conducción autónoma (AD) [6, 7, 9, 5]. Por ejemplo, trabajos existentes han evaluado cuantitativamente las capacidades lingüísticas de los Vision-LLMs en términos de su confiabilidad para explicar los procesos de toma de decisiones de AD [7]. Otros han explorado el uso de VisionLLMs para maniobras vehiculares [8, 5], y [6] incluso validó un enfoque en entornos físicos controlados. Debido a que los sistemas AD involucran situaciones críticas de seguridad, los análisis exhaustivos de sus vulnerabilidades son cruciales para un despliegue e inferencia confiables. Sin embargo, las adopciones propuestas de Vision-LLMs en AD han sido directas, lo que significa que los problemas existentes (por ejemplo, vulnerabilidades contra ataques tipográficos) en tales modelos probablemente estén presentes sin contramedidas adecuadas.

:::info Autores:

(1) Nhat Chung, CFAR e IHPC, A*STAR, Singapur y VNU-HCM, Vietnam;

(2) Sensen Gao, CFAR e IHPC, A*STAR, Singapur y Universidad de Nankai, China;

(3) Tuan-Anh Vu, CFAR e IHPC, A*STAR, Singapur y HKUST, HKSAR;

(4) Jie Zhang, Universidad Tecnológica de Nanyang, Singapur;

(5) Aishan Liu, Universidad de Beihang, China;

(6) Yun Lin, Universidad Jiao Tong de Shanghai, China;

(7) Jin Song Dong, Universidad Nacional de Singapur, Singapur;

(8) Qing Guo, CFAR e IHPC, A*STAR, Singapur y Universidad Nacional de Singapur, Singapur.

:::

:::info Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.

:::

Fondo de premios: 200,000 USDT

Opera oro, plata y petróleo. Todos ganan.

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

También te puede interesar

La Versión 23 del Protocolo de Pi Network Podría Convertirse en la Actualización más Grande en la Historia de Pi Coin

Pi Network entra en una nueva era con el lanzamiento de la versión 23 del protocolo, despertando una enorme especulación en la comunidad La comunidad cripto global está nuevamente poniendo su atención en

Hokanews2026/05/10 12:52

TopNod Integra Hyperliquid – El Futuro del Trading de Futuros Perpetuos en Cadena sin Fricciones

TopNod integra Hyperliquid directamente en su aplicación móvil, permitiendo a los usuarios operar con perpetuos on-chain y RWAs sin salir nunca de su panel de cartera.

Blockchainreporter2026/05/10 12:00

Los Pioneros de Pi Network Celebran el Lanzamiento de la Prueba Beta Pública de Pi ELF de CiDi Games

Los Pioneers de Pi Network esperan el lanzamiento beta de Pi ELF de CiDi Games a través de Pi Browser sin descargas, redireccionamientos ni costo de acceso. Los Pioneers de Pi Network están reaccionando ante CiDi

LiveBitcoinNews2026/05/10 12:15

BTC a $81K: aprovecha el impulso

Sigue las señales de rotación de ETH, SOL, XRP y TON

Noticias en tendencia

Más

Wispr Flow apuesta fuerte por la oportunidad de la IA de voz en India, apostando por el Hinglish como clave

La Evolución del Ciclo de Bitcoin Está Aquí: Menor Volatilidad, Acumulación Más Inteligente

De la Innovación a la Escala Global: Podim 2026 Posiciona a Maribor como un Hub para la Próxima Fase de Crecimiento de Europa

La próxima actualización de la billetera Pi podría cambiar los pagos con criptomonedas para siempre

Pi Network sorprende a la comunidad cripto con 104 transacciones en un solo bloque

Noticias en vivo 24/7

Más

El tercer hombre más rico de México mantiene el 70% de su cartera personal en Bitcoin, lo que demuestra el interés de los multimillonarios.

Autor: Vivek Sen15:38

La actividad de Shadowfolio sugiere un posible movimiento del mercado.

Autor: Crypto Ndo! 🇮🇩15:25

Tom Lee predice que ETH alcanzará los 12.000 dólares en 2023. La cartera de Ethereum de Bitmine enfrenta pérdidas no realizadas significativas.

Autor: CryptoSavingExpert ®13:46

Posiciones largas de criptomonedas por 6,56 mil millones de dólares enfrentan liquidaciones si BTC cae 5.000 dólares. Se destaca el riesgo de volatilidad del mercado.

Autor: CryptoSavingExpert ®13:16

BNB Chain cubre 4,5 millones de dólares en comisiones de gas para las transferencias de USDC, USD1 y U, promoviendo transacciones sin coste.

Autor: BNB Chain11:01