OpenRT icon
多样化  ·  模块化  ·  可扩展

OpenRT:面向多模态大语言模型的
开源红队框架

王欣*, 陈云豪*, 黎俊成*, 王熠旭, 姚洋, 李杰, 滕妍, 王迎春, 胡侠
上海人工智能实验室

✨ 访问 GitHub 阅览文章

OpenRT 提供一个模块化的并行运行框架,能够解耦组件并支持多样化的攻击策略,从而系统性地评估多模态大语言模型的安全性。

摘要

多模态大语言模型(MLLMs)在关键应用中的快速集成,正日益受到持续存在的安全漏洞阻碍。然而,现有的红队基准往往是碎片化的,局限于单轮文本交互,缺乏系统性评估所需的可扩展性。为此,我们提出了 OpenRT, 一个统一的、模块化的、高吞吐量红队框架,专为全面的 MLLM 安全评估而设计。OpenRT 的核心是一个可组合、可扩展的并行执行运行时,它能够解耦模型、数据集、攻击者和评估器,从而实现可扩展的高吞吐量评估。我们的框架整合了 37 种多样化的攻击方法,涵盖白盒梯度、多模态扰动以及复杂的多智能体进化策略。通过对 20 个先进模型(包括 GPT-5.2、Claude 4.5 和 Gemini 3 Pro)的广泛实证研究,我们揭示了关键的安全缺陷:即使是前沿模型也未能在不同攻击范式下实现泛化,领先模型的平均攻击成功率高达 49.14%。值得注意的是,我们的研究发现推理模型并不天然具备对复杂、多轮越狱攻击的更强鲁棒性。通过开源 OpenRT,我们提供了一个可持续、可扩展、并持续维护的基础设施,以加速 AI 安全的发展与标准化。

🧩 框架创新:将红队形式化为通用状态空间搜索问题

OpenRT 实现了从脚本集合到通用求解器的范式重构。它将遗传算法、梯度优化等异构策略统一抽象为状态空间搜索,并通过标准化的提议、评估、更新闭环,支持蒙特卡洛选择、精英保留及剪枝。此设计将探索与利用调度逻辑下沉为基础设施,使开发者可复用底层搜索与状态管理,无需重复造轮子。

🚀 极致效率:一行命令实现 30 倍加速的一键扫描

专为大规模评测设计,OpenRT采用基于AsyncIO和ThreadPool的高并发架构,能够实现模型推理与攻击调度的双重并行。相比传统串行基线,吞吐量提升30×。用户仅需一行命令即可启动全流程评测,轻松实现从攻击生成、自动判决到安全报表的一键式高通量扫描体验。

🛡️ 全面前沿:覆盖至今的 37+ 种最新攻击范式,持续演进

OpenRT 内置业内最全的红队算法库,集成 37+ 种前沿攻击方法,持续追踪至 2025 年底的最新成果。我们的武器库覆盖全谱系威胁:包括多模态攻击、多智能体协同、复杂逻辑混淆及最新的迭代攻击。这不仅是一个工具箱,更是面向下一代前沿模型进行安全验收的标准化基础设施。

攻击方法

方法 年份 多模态 多轮 多智能体 策略范式
白盒
GCG 2023 文本 单轮 梯度优化
Visual Jailbreak 2023 图像 单轮 梯度优化
黑盒:优化与模糊测试
AutoDAN 2023 文本 单轮 遗传算法
GPTFuzzer 2023 文本 单轮 模糊测试 / 变异
TreeAttack 2023 文本 单轮 树搜索优化
SeqAR 2024 文本 单轮 遗传算法
RACE 2025 文本 单轮 梯度/遗传优化
AutoDAN-R 2025 文本 单轮 测试时扩展
黑盒:LLM驱动优化
PAIR 2023 文本 单轮 迭代式 LLM 优化
ReNeLLM 2023 文本 单轮 重写与嵌套
DrAttack 2024 文本 单轮 提示分解
AutoDAN-Turbo 2024 文本 单轮 遗传 + 梯度引导
黑盒:语言与编码
CipherChat 2023 文本 单轮 密码/加密
CodeAttack 2022 文本 单轮 代码封装
Multilingual 2023 文本 单轮 低资源语言
Jailbroken 2023 文本 单轮 模板组合
ICA 2023 文本 单轮 上下文内示范
FlipAttack 2024 文本 单轮 令牌翻转 / 掩蔽
Mousetrap 2025 文本 单轮 逻辑嵌套 / 混淆
Prefill 2025 文本 单轮 前缀注入
黑盒:语境欺骗
DeepInception 2023 文本 单轮 催眠或嵌套场景
Crescendo 2024 文本 多轮 多轮引导
RedQueen 2024 文本 多轮 隐匿知识
CoA 2024 文本 多轮 攻击链
黑盒:多模态特定
FigStep 2023 图像 单轮 版式 / OCR
QueryRelevant 2024 图像 单轮 视觉提示注入
IDEATOR 2024 图像 单轮 视觉语义
MML 2024 图像 单轮 跨模态加密
HADES 2024 图像 单轮 视觉脆弱性放大
HIMRD 2024 图像 单轮 多模态风险分布
JOOD 2025 图像 单轮 分布外转换
SI 2025 图像 单轮 乱序不一致性优化
CS-DJ 2025 图像 单轮 多级视觉干扰
黑盒:多智能体与协作
ActorAttack 2024 文本 多轮 角色驱动引导
Rainbow Teaming 2024 文本 多轮 多样性驱动搜索
X-Teaming 2025 文本 多轮 协作探索
EvoSynth 2025 文本 多轮 代码级进化合成

演示

演示视频(倍速播放)

python eval.py \
    --attacker-model deepseek-v3.2 \
    --judge-model gpt-4o-mini \
    --target-models gpt-5.2 \
    --attacks all \
    --dataset harmbench \
    --max-workers 50 \
    --results-dir results/demo

实验

Main experiment figure

在不同 MLLMs 上的攻击性能

攻击方法 GPT-5.2 GPT-5.1 Claude Haiku 4.5 Gemini 3 Pro Preview Gemini 2.5 Flash Mistral Large 3 Llama-4 Maverick Llama-4 Scout Grok 4.1 Fast Doubao Seed-1.6
AutoDAN 2.0 8.0 1.5 22.5 37.5 28.5 23.5 64.5 38.5 13.0
GPTFuzzer 11.0 1.5 0.0 51.0 93.0 97.5 64.0 97.5 31.0 57.0
TreeAttack 11.0 23.5 8.0 49.5 79.0 74.5 69.5 80.5 81.0 68.0
SeqAR 25.0 29.5 0.0 8.5 97.5 99.0 73.0 88.0 55.5 64.0
RACE 24.5 38.0 24.5 47.0 47.5 53.0 30.5 59.5 49.5 48.0
AutoDAN-R 70.5 69.0 28.5 83.0 96.5 97.0 96.5 80.0 90.0 86.5
PAIR 38.5 72.5 13.0 74.5 84.5 78.0 66.0 89.5 80.0 75.5
ReNeLLM 8.0 33.5 0.5 13.5 51.5 22.0 39.0 57.0 42.5 43.0
DrAttack 32.0 54.0 5.5 56.0 56.0 89.5 60.5 83.0 31.5 68.0
AutoDAN-Turbo 21.5 15.5 1.0 0.0 0.5 83.5 0.5 0.0 3.0 1.0
CipherChat 14.5 64.0 32.5 0.0 89.5 64.0 21.0 68.0 26.0 38.5
CodeAttack 22.0 20.5 29.5 10.5 51.0 8.5 71.0 86.5 22.0 89.0
Multilingual 16.5 25.0 0.0 2.0 34.0 55.5 14.0 0.0 1.5 6.5
Jailbroken 7.0 29.5 0.0 11.0 92.5 98.5 39.5 33.5 31.5 28.0
ICA 14.0 33.5 0.0 9.0 98.5 99.0 8.0 37.0 41.0 65.5
FlipAttack 13.5 68.5 0.0 19.5 95.5 95.5 65.5 54.5 23.0 87.0
Mousetrap 97.5 71.0 0.0 49.0 95.5 100.0 95.5 87.5 100.0 100.0
Prefill 1.0 14.0 0.0 3.5 97.5 97.0 34.5 43.5 25.5 30.5
DeepInception 15.5 19.0 0.0 3.5 84.0 100.0 82.5 94.5 37.5 82.0
Crescendo 32.5 51.0 9.0 47.0 48.0 61.0 17.0 30.5 41.0 58.0
RedQueen 0.0 1.0 0.0 2.5 3.0 4.5 3.0 5.5 1.5 21.5
CoA 15.5 0.0 0.5 2.0 4.5 16.5 3.0 19.0 7.0 4.5
FigStep 2.0 1.5 1.5 7.5 12.0 18.5 42.5 25.5 5.5 13.5
QueryRelevant 1.5 4.0 2.0 5.0 16.0 24.0 26.0 16.0 10.0 8.5
IDEATOR 31.5 73.0 17.0 80.0 95.0 94.5 90.0 94.0 94.5 96.0
MML 4.5 68.0 75.0 40.5 98.0 98.0 90.5 90.5 58.0 97.5
HADES 0.0 1.0 2.0 7.0 29.5 33.0 25.0 29.0 22.5 17.5
HIMRD 11.5 35.0 0.0 9.0 70.0 61.5 3.5 29.5 1.5 49.5
JOOD 65.0 62.5 38.0 56.0 61.5 63.0 38.5 39.5 69.5 72.0
SI 3.0 45.0 14.0 37.0 82.5 47.5 81.0 71.5 27.0 44.0
CS-DJ 15.0 21.5 23.5 35.0 39.5 38.0 35.0 39.5 28.5 51.0
ActorAttack 0.5 31.0 10.0 65.0 76.0 0.5 65.5 79.0 50.0 56.0
Rainbow Teaming 0.5 3.5 12.0 73.5 61.0 5.5 3.5 35.0 13.5 67.0
X-Teaming 75.5 95.5 47.5 86.5 89.0 91.0 86.0 98.0 90.5 87.0
EvoSynth 99.0 100.0 74.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0

在不同 LLMs 上的攻击性能

攻击方法 Qwen3-Max Qwen3-235B A22B Qwen3-Next 80B-A3B DeepSeek R1 DeepSeek V3.2 Kimi K2-Instruct MiniMax-M2 GLM-4.6 Hunyuan A13B-Instruct ERNIE-4.5 300B-A47B
AutoDAN 3.0 80.0 7.5 40.0 44.0 33.0 61.0 53.5 17.5 20.5
GPTFuzzer 9.5 92.0 78.0 97.0 96.5 87.5 19.0 97.0 42.5 98.0
TreeAttack 52.5 47.0 28.5 80.5 80.5 54.5 48.5 58.0 77.5 67.5
SeqAR 92.0 25.5 30.5 96.5 100.0 96.0 1.0 24.5 61.0 99.5
RACE 44.0 81.0 28.0 49.0 65.0 61.5 83.5 69.0 66.0 74.0
AutoDAN-R 96.5 95.5 88.5 100.0 98.0 96.0 89.5 94.0 94.5 96.0
PAIR 50.0 98.5 64.5 82.5 93.0 83.0 90.0 93.5 94.0 89.5
ReNeLLM 1.0 5.0 5.5 68.5 70.5 69.0 7.5 20.5 19.5 42.0
DrAttack 24.5 58.0 66.5 66.5 63.5 83.5 67.5 61.0 56.0 72.5
AutoDAN-Turbo 18.0 4.5 0.0 0.5 14.0 0.0 4.5 11.0 0.0 0.0
CipherChat 9.5 2.5 3.0 97.5 77.5 86.5 75.0 6.5 23.5 59.0
CodeAttack 41.5 92.5 44.5 83.5 83.5 79.0 73.5 86.5 89.5 87.0
Multilingual 3.5 0.5 3.0 62.5 11.5 27.5 0.0 1.0 33.5 7.0
Jailbroken 21.0 58.5 64.5 99.0 95.5 78.0 0.0 20.0 3.5 25.5
ICA 53.5 99.0 97.0 99.0 98.0 83.5 1.0 63.0 1.5 95.5
FlipAttack 90.5 17.5 97.5 99.0 91.5 91.5 31.0 53.5 12.5 97.0
Mousetrap 93.0 96.0 97.5 100.0 97.0 91.5 3.5 98.5 12.5 97.5
Pre-fill 6.0 1.0 0.5 99.5 96.0 50.5 1.5 4.0 3.5 36.0
DeepInception 2.0 29.0 44.0 99.0 99.5 97.0 0.0 22.0 1.5 97.0
Crescendo 12.0 49.0 21.5 56.0 59.0 57.5 50.5 94.5 47.5 46.5
RedQueen 0.5 3.0 1.5 24.0 47.0 36.5 3.0 24.0 2.5 2.0
CoA 10.0 7.0 1.0 9.5 9.0 8.5 53.5 31.0 11.5 37.5
ActorAttack 42.5 35.5 19.5 70.0 76.5 54.0 42.0 76.5 64.5 53.0
Rainbow Teaming 7.0 3.5 16.0 2.0 18.5 25.5 14.5 0.5 96.5 31.0
X-Teaming 94.0 98.5 80.5 94.0 99.0 89.5 93.0 98.5 97.0 95.0
EvoSynth 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0

BibTeX

@article{openrt2025,
  title   = {OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs},
  author  = {Xin Wang and Yunhao Chen and Juncheng Li and Yixu Wang and Yang Yao and Jie Li and Yan Teng and Yingchun Wang and Xia Hu},
  journal = {Shanghai Artificial Intelligence Laboratory},
  year    = {2025},
  url     = {https://github.com/AI45Lab/OpenRT}
}

联络我们

作者

王欣*, 陈云豪*, 黎俊成*, 王熠旭, 姚洋, 李杰, 滕妍, 王迎春, 胡侠

单位: 上海人工智能实验室

联系方式

通讯邮箱:tengyan@pjlab.org.cn

项目主页: https://github.com/AI45Lab/OpenRT