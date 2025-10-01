摘要和 1. 引言

4 方法論

圖 1 展示了我們印刷攻擊流程的概述，從提示工程到攻擊註釋，特別是通過攻擊自動生成、攻擊增強和攻擊實現步驟。我們在以下小節中描述每個步驟的詳細內容。

4.1 印刷攻擊的自動生成

\ 為了生成有效的誤導，對抗模式必須與現有問題保持一致，同時引導大型語言模型朝向錯誤答案。我們可以通過一個稱為指令的概念來實現這一點，指令是指為大型語言模型（如 ChatGPT）配置目標，以施加特定約束同時鼓勵多樣化行為。在我們的情境中，我們指導大型語言模型生成 ˆa 作為給定答案 a 的相反，在給定問題 q 的約束下。因此，我們可以使用圖 2 中的以下提示來初始化對大型語言模型的指令，

\

\

\ 在生成攻擊時，我們會根據問題類型施加額外的約束。在我們的情境中，我們專注於 ❶ 場景推理（如計數）、❷ 場景物體推理（如識別）和 ❸ 行動推理（如行動建議）等任務，如圖 3 所示，

\

\ 這些指令鼓勵大型語言模型生成能夠通過文本到文本對齊影響視覺-大型語言模型推理步驟的攻擊，並自動生成作為基準攻擊的印刷模式。顯然，上述印刷攻擊僅適用於單任務場景，即單一問題和答案對。為了調查關於多個對的多任務漏洞，我們還可以將公式推廣到 K 對問題和答案，表示為 qi、ai，以獲得對抗性文本 aˆi，其中 i ∈ [1, K]。

\

