论文总结:Visual Adversarial Examples Jailbreak Aligned Large Language Models

介绍

随着越来越多的大型VLM被公开,本文想要研究这种范式对安全的影响和这种攻击面的扩大,作者强调将视觉输入整合到LLMs中会导致攻击面的扩大。核心风险源于额外视觉空间的暴露-其固有的连续性和高维性使其成为视觉对抗样本的薄弱环节,而这类对抗威胁本质上难以防御。相比之下,纯文本领域的对抗攻击由于文本空间的离散型更难实现。因此,从纯文本领域向文本-视觉复合领域的过渡,本质上扩展了攻击面,同时加剧了防御负担。

攻击方法

在单轮回答中,首先使用一个包含有有害内容的少量示例组成的小语料库Y:={yi}i=1mY:=\{y_i\}_{i=1}^m,创建对抗性示例xadvx_{adv}相当简单:我们以xadvx_{adv}为条件,最大化这个少量示例的生成概率,攻击方式如下:

xadv:=argminx^advBi=1mlog(p(yix^adv)),(1)x_{adv}:=\arg\min_{\hat{x}_{adv}\in\mathcal{B}}\sum_{i=1}^m -\log\left(p(y_i|\hat{x}_{adv})\right),\tag{1}

在这里B\mathcal{B}是搜索对抗性示例的输入空间的一些约束。然后在模型推理阶段,我们将 xadvx_{adv} 与一些有害指令xharmx_{harm}配对,形成联合输入[xadv,xharm][x_{adv},x_{harm}]

对于视觉攻击,由于视觉输入空间的连续性,公式(1)的攻击目标对于视觉输入是端到端可微分的,因此我们可以通过将攻击目标的梯度反向传播到图像输入来实现视觉攻击。作者使用了标准投影梯度下降(PGD)算法。

对于文本攻击,为了公平比较,我们将“对抗性图像嵌入”替换为长度相等的“对抗性文本token的嵌入”。两者输入序列的长度和结构完全一致,唯一的变量是嵌入内容的来源(一个是来自对抗性图像,一个是来自对抗性文本)。这些对抗性文本的token也是通过在相同的语料库Y上最小化相同的公式(1)来确定的。

测试攻击效果

本文主要评估了集成了视觉的Vicuna。采用了13B的MiniGPT-4和InstructBLIP,它们建立在一个冻结的Vicuna LLM主干上,当没有视觉输入时,它们与仅限文本的Vicuna完全相同。为了整合视觉,它们有一个额外的基于ViT的CLIP视觉编码器,以将图像投影到LLM的嵌入空间中。Vicuna是从Llama里衍生的对齐LLM,它从ChatGPT收集的对话数据进行指令微调的,并拥有类似ChatGPT的“对齐机制”,能够拒绝有害的用户指令。LLama-2-Chat是作者研究安全对齐的最好的开源LLM。因此,作者使用了基于Llama-2-13B-Chat构建的开源VLM-Llava。

为了检测视觉对抗性例子的有效性,作者将其与一组不同的40个手工策划的多样化有害文本指令配对,其包含四个类别的有害内容: 身份攻击(identity attack)、虚假新闻(disinformation)、暴力犯罪(Violence/Crime)、对人类的恶意行为(X-risk)。

为了进行评估,作者手动检查对抗性示例是否可以突破MiniGPT-4的护栏,诱导它遵从这40条指令。如果攻击导致生成相应的有害输出,则认为这次攻击时成功的,


论文总结:Visual Adversarial Examples Jailbreak Aligned Large Language Models
http://example.com/2025/11/30/MLLM-sec-2/
Author
John Doe
Posted on
November 30, 2025
Licensed under