本文详细介绍了多步骤的排版攻击管道，包括攻击自动生成和攻击增强。

对抗性攻击生成方法论：使用指令误导视觉-大语言模型

作者：Hackernoon
2025/10/01 03:00
摘要和1. 引言

  1. 相关工作

    2.1 视觉-大语言模型

    2.2 可迁移对抗攻击

  2. 预备知识

    3.1 回顾自回归视觉-大语言模型

    3.2 基于视觉-大语言模型的自动驾驶系统中的印刷攻击

  3. 方法论

    4.1 印刷攻击的自动生成

    4.2 印刷攻击的增强

    4.3 印刷攻击的实现

  4. 实验

  5. 结论和参考文献

4 方法论

图1展示了我们印刷攻击流程的概述，该流程从提示工程到攻击标注，特别是通过攻击自动生成、攻击增强和攻击实现步骤。我们在以下小节中描述每个步骤的详细信息。

4.1 印刷攻击的自动生成

\ 为了生成有效的误导，对抗模式必须与现有问题保持一致，同时引导大语言模型给出错误答案。我们可以通过一个称为指令的概念来实现这一点，指令是指为大语言模型（如ChatGPT）配置目标，以施加特定约束同时鼓励多样化行为。在我们的上下文中，我们指导大语言模型生成ˆa作为给定答案a的相反，在给定问题q的约束下。因此，我们可以使用图2中的以下提示初始化对大语言模型的指令，

\ 图1：我们提出的流程是从通过指令生成攻击到通过命令和连接词增强，再到定位攻击并最终影响推理。

\ 图2：攻击生成约束的上下文指令。

\ 在生成攻击时，我们会根据问题类型施加额外的约束。在我们的上下文中，我们专注于以下任务：❶场景推理（如计数），❷场景对象推理（如识别），以及❸动作推理（如动作推荐），如图3所示，

\ 图3：攻击生成的模板指令和示例。

\ 这些指令鼓励大语言模型生成通过文本到文本对齐影响视觉-大语言模型推理步骤的攻击，并自动生成作为基准攻击的印刷模式。显然，上述印刷攻击仅适用于单任务场景，即单个问题和答案对。为了研究与多个对相关的多任务漏洞，我们还可以将公式推广到K对问题和答案，表示为qi，ai，以获得对抗性文本aˆi，其中i∈[1,K]。

\

:::info 作者

(1) Nhat Chung，新加坡A*STAR的CFAR和IHPC，以及越南VNU-HCM；

(2) Sensen Gao，新加坡A*STAR的CFAR和IHPC，以及中国南开大学；

(3) Tuan-Anh Vu，新加坡A*STAR的CFAR和IHPC，以及香港特别行政区香港科技大学；

(4) Jie Zhang，新加坡南洋理工大学；

(5) Aishan Liu，中国北京航空航天大学；

(6) Yun Lin，中国上海交通大学；

(7) Jin Song Dong，新加坡国立大学；

(8) Qing Guo，新加坡A*STAR的CFAR和IHPC，以及新加坡国立大学。

:::

:::info 本论文可在arxiv上获取，遵循CC BY 4.0 DEED许可。

:::

\

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。

