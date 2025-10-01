摘要和1. 引言

相关工作 2.1 视觉-大语言模型 2.2 可迁移对抗攻击 预备知识 3.1 回顾自回归视觉-大语言模型 3.2 基于视觉-大语言模型的自动驾驶系统中的印刷攻击 方法论 4.1 印刷攻击的自动生成 4.2 印刷攻击的增强 4.3 印刷攻击的实现 实验 结论和参考文献

4 方法论

图1展示了我们印刷攻击流程的概述，该流程从提示工程到攻击标注，特别是通过攻击自动生成、攻击增强和攻击实现步骤。我们在以下小节中描述每个步骤的详细信息。

4.1 印刷攻击的自动生成

\ 为了生成有效的误导，对抗模式必须与现有问题保持一致，同时引导大语言模型给出错误答案。我们可以通过一个称为指令的概念来实现这一点，指令是指为大语言模型（如ChatGPT）配置目标，以施加特定约束同时鼓励多样化行为。在我们的上下文中，我们指导大语言模型生成ˆa作为给定答案a的相反，在给定问题q的约束下。因此，我们可以使用图2中的以下提示初始化对大语言模型的指令，

\

\

\ 在生成攻击时，我们会根据问题类型施加额外的约束。在我们的上下文中，我们专注于以下任务：❶场景推理（如计数），❷场景对象推理（如识别），以及❸动作推理（如动作推荐），如图3所示，

\

\ 这些指令鼓励大语言模型生成通过文本到文本对齐影响视觉-大语言模型推理步骤的攻击，并自动生成作为基准攻击的印刷模式。显然，上述印刷攻击仅适用于单任务场景，即单个问题和答案对。为了研究与多个对相关的多任务漏洞，我们还可以将公式推广到K对问题和答案，表示为qi，ai，以获得对抗性文本aˆi，其中i∈[1,K]。

\

:::info 作者：

(1) Nhat Chung，新加坡A*STAR的CFAR和IHPC，以及越南VNU-HCM；

(2) Sensen Gao，新加坡A*STAR的CFAR和IHPC，以及中国南开大学；

(3) Tuan-Anh Vu，新加坡A*STAR的CFAR和IHPC，以及香港特别行政区香港科技大学；

(4) Jie Zhang，新加坡南洋理工大学；

(5) Aishan Liu，中国北京航空航天大学；

(6) Yun Lin，中国上海交通大学；

(7) Jin Song Dong，新加坡国立大学；

(8) Qing Guo，新加坡A*STAR的CFAR和IHPC，以及新加坡国立大学。

:::

:::info 本论文可在arxiv上获取，遵循CC BY 4.0 DEED许可。

:::

\