OpenRT icon
多样化  ·  模块化  ·  可扩展

OpenRT:面向多模态大语言模型的
开源红队框架

上海人工智能实验室

✨ 访问 GitHub 阅览文章

OpenRT 提供一个模块化的并行运行框架,能够解耦组件并支持多样化的攻击策略,从而系统性地评估多模态大语言模型的安全性。

摘要

随着多模态大语言模型(MLLM)在关键业务中的应用日益广泛,安全隐患已成为不可忽视的挑战。面对现有红队基准碎片化、交互单一且扩展性不足的现状,我们推出了OpenRT,一个统一、模块化的高吞吐红队演练框架。OpenRT的核心是一个可组合、可扩展的并行执行引擎,它实现了模型集成、数据管理、攻击策略、裁判方法和评估指标这五大维度的解耦,从而支持大规模自动化评测。框架内置37种多样化的攻击手段,涵盖白盒梯度攻击、多模态扰动、多轮越狱以及复杂的多智能体协同策略。我们在20个前沿模型(包括GPT-5.2、Claude Haiku 4.5、Gemini 3.0 Pro Previous)上的实测表明:即便是最先进的模型也存在巨大的安全缺口,平均攻击成功率高达49.14%,且推理能力的提升并未天然带来对复杂多轮越狱的防御力。OpenRT 现已开源,旨在为社区提供一个可持续演进的基础设施,共同推动 AI 安全标准化。

🧩 框架创新:将红队形式化为通用状态空间搜索问题

OpenRT将红队演练解耦为五个相互正交的维度:模型、数据集、攻击、裁判与指标。在统一的组件注册表驱动下,它支持即插即用的组合,从简单提示到复杂的多轮与多智能体策略均可覆盖。此设计将探索与利用调度逻辑下沉为基础设施,使开发者可复用底层搜索与状态管理,无需重复造轮子。

🚀 极致效率:一行命令实现30倍加速的一键扫描

专为大规模评测设计,OpenRT采用基于AsyncIO和ThreadPool的高并发架构,能够实现模型推理与攻击调度的双重并行。相比传统串行基线,吞吐量提升30×。用户仅需一行命令即可启动全流程评测,轻松实现从攻击生成、自动判决到安全报表的一键式高通量扫描体验。

🛡️ 全面前沿:覆盖至今的37+种最新攻击范式,持续演进

OpenRT内置业内最全的红队算法库,集成37+种前沿攻击方法,持续追踪至2025 年底的最新成果。我们的武器库覆盖全谱系威胁:包括多模态攻击、多智能体协同、复杂逻辑混淆及最新的迭代攻击。这不仅是一个工具箱,更是面向下一代前沿模型进行安全验收的标准化基础设施。

攻击方法

方法 年份 多模态 多轮 多智能体 策略范式
白盒
GCG 2023 文本 单轮 梯度优化
Visual Jailbreak 2023 图像 单轮 梯度优化
黑盒:优化与模糊测试
AutoDAN 2023 文本 单轮 遗传算法
GPTFuzzer 2023 文本 单轮 模糊测试 / 变异
TreeAttack 2023 文本 单轮 树搜索优化
SeqAR 2024 文本 单轮 遗传算法
RACE 2025 文本 多轮 梯度/遗传优化
AutoDAN-R 2025 文本 单轮 测试时扩展
黑盒:LLM驱动优化
PAIR 2023 文本 单轮 迭代式 LLM 优化
ReNeLLM 2023 文本 单轮 重写与嵌套
DrAttack 2024 文本 单轮 提示分解
AutoDAN-Turbo 2024 文本 单轮 遗传 + 梯度引导
黑盒:语言与编码
CipherChat 2023 文本 单轮 密码/加密
CodeAttack 2022 文本 单轮 代码封装
Multilingual 2023 文本 单轮 低资源语言
Jailbroken 2023 文本 单轮 模板组合
ICA 2023 文本 单轮 上下文内示范
FlipAttack 2024 文本 单轮 令牌翻转 / 掩蔽
Mousetrap 2025 文本 单轮 逻辑嵌套 / 混淆
Prefill 2025 文本 单轮 前缀注入
黑盒:语境欺骗
DeepInception 2023 文本 单轮 催眠或嵌套场景
Crescendo 2024 文本 多轮 多轮引导
RedQueen 2024 文本 多轮 隐匿知识
CoA 2024 文本 多轮 攻击链
黑盒:多模态
FigStep 2023 图像 单轮 版式 / OCR
QueryRelevant 2024 图像 单轮 视觉提示注入
IDEATOR 2024 图像 单轮 视觉语义
MML 2024 图像 单轮 跨模态加密
HADES 2024 图像 单轮 视觉脆弱性放大
HIMRD 2024 图像 单轮 多模态风险分布
JOOD 2025 图像 单轮 分布外转换
SI 2025 图像 单轮 乱序不一致性优化
CS-DJ 2025 图像 单轮 多级视觉干扰
黑盒:多智能体与协作
ActorAttack 2024 文本 多轮 角色驱动引导
Rainbow Teaming 2024 文本 多轮 多样性驱动搜索
X-Teaming 2025 文本 多轮 协作探索
EvoSynth 2025 文本 多轮 代码级进化合成

实验

Main experiment figure

在不同 MLLMs 上的攻击性能

攻击方法 GPT-5.2 GPT-5.1 Claude Haiku 4.5 Gemini 3 Pro Preview Gemini 2.5 Flash Mistral Large 3 Llama-4 Maverick Llama-4 Scout Grok 4.1 Fast Doubao Seed-1.6
AutoDAN 2.0 8.0 1.5 22.5 37.5 28.5 23.5 64.5 38.5 13.0
GPTFuzzer 11.0 1.5 0.0 51.0 93.0 97.5 64.0 97.5 31.0 57.0
TreeAttack 11.0 23.5 8.0 49.5 79.0 74.5 69.5 80.5 81.0 68.0
SeqAR 25.0 29.5 0.0 8.5 97.5 99.0 73.0 88.0 55.5 64.0
RACE 24.5 38.0 24.5 47.0 47.5 53.0 30.5 59.5 49.5 48.0
AutoDAN-R 70.5 69.0 28.5 83.0 96.5 97.0 96.5 80.0 90.0 86.5
PAIR 38.5 72.5 13.0 74.5 84.5 78.0 66.0 89.5 80.0 75.5
ReNeLLM 8.0 33.5 0.5 13.5 51.5 22.0 39.0 57.0 42.5 43.0
DrAttack 32.0 54.0 5.5 56.0 56.0 89.5 60.5 83.0 31.5 68.0
AutoDAN-Turbo 21.5 15.5 1.0 0.0 0.5 83.5 0.5 0.0 3.0 1.0
CipherChat 14.5 64.0 32.5 0.0 89.5 64.0 21.0 68.0 26.0 38.5
CodeAttack 22.0 20.5 29.5 10.5 51.0 8.5 71.0 86.5 22.0 89.0
Multilingual 16.5 25.0 0.0 2.0 34.0 55.5 14.0 0.0 1.5 6.5
Jailbroken 7.0 29.5 0.0 11.0 92.5 98.5 39.5 33.5 31.5 28.0
ICA 14.0 33.5 0.0 9.0 98.5 99.0 8.0 37.0 41.0 65.5
FlipAttack 13.5 68.5 0.0 19.5 95.5 95.5 65.5 54.5 23.0 87.0
Mousetrap 97.5 71.0 0.0 49.0 95.5 100.0 95.5 87.5 100.0 100.0
Prefill 1.0 14.0 0.0 3.5 97.5 97.0 34.5 43.5 25.5 30.5
DeepInception 15.5 19.0 0.0 3.5 84.0 100.0 82.5 94.5 37.5 82.0
Crescendo 32.5 51.0 9.0 47.0 48.0 61.0 17.0 30.5 41.0 58.0
RedQueen 0.0 1.0 0.0 2.5 3.0 4.5 3.0 5.5 1.5 21.5
CoA 15.5 0.0 0.5 2.0 4.5 16.5 3.0 19.0 7.0 4.5
FigStep 2.0 1.5 1.5 7.5 12.0 18.5 42.5 25.5 5.5 13.5
QueryRelevant 1.5 4.0 2.0 5.0 16.0 24.0 26.0 16.0 10.0 8.5
IDEATOR 31.5 73.0 17.0 80.0 95.0 94.5 90.0 94.0 94.5 96.0
MML 4.5 68.0 75.0 40.5 98.0 98.0 90.5 90.5 58.0 97.5
HADES 0.0 1.0 2.0 7.0 29.5 33.0 25.0 29.0 22.5 17.5
HIMRD 11.5 35.0 0.0 9.0 70.0 61.5 3.5 29.5 1.5 49.5
JOOD 65.0 62.5 38.0 56.0 61.5 63.0 38.5 39.5 69.5 72.0
SI 3.0 45.0 14.0 37.0 82.5 47.5 81.0 71.5 27.0 44.0
CS-DJ 15.0 21.5 23.5 35.0 39.5 38.0 35.0 39.5 28.5 51.0
ActorAttack 0.5 31.0 10.0 65.0 76.0 0.5 65.5 79.0 50.0 56.0
Rainbow Teaming 0.5 3.5 12.0 73.5 61.0 5.5 3.5 35.0 13.5 67.0
X-Teaming 75.5 95.5 47.5 86.5 89.0 91.0 86.0 98.0 90.5 87.0
EvoSynth 99.0 100.0 74.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0

在不同 LLMs 上的攻击性能

攻击方法 Qwen3-Max Qwen3-235B A22B Qwen3-Next 80B-A3B DeepSeek R1 DeepSeek V3.2 Kimi K2-Instruct MiniMax-M2 GLM-4.6 Hunyuan A13B-Instruct ERNIE-4.5 300B-A47B
AutoDAN 3.0 80.0 7.5 40.0 44.0 33.0 61.0 53.5 17.5 20.5
GPTFuzzer 9.5 92.0 78.0 97.0 96.5 87.5 19.0 97.0 42.5 98.0
TreeAttack 52.5 47.0 28.5 80.5 80.5 54.5 48.5 58.0 77.5 67.5
SeqAR 92.0 25.5 30.5 96.5 100.0 96.0 1.0 24.5 61.0 99.5
RACE 44.0 81.0 28.0 49.0 65.0 61.5 83.5 69.0 66.0 74.0
AutoDAN-R 96.5 95.5 88.5 100.0 98.0 96.0 89.5 94.0 94.5 96.0
PAIR 50.0 98.5 64.5 82.5 93.0 83.0 90.0 93.5 94.0 89.5
ReNeLLM 1.0 5.0 5.5 68.5 70.5 69.0 7.5 20.5 19.5 42.0
DrAttack 24.5 58.0 66.5 66.5 63.5 83.5 67.5 61.0 56.0 72.5
AutoDAN-Turbo 18.0 4.5 0.0 0.5 14.0 0.0 4.5 11.0 0.0 0.0
CipherChat 9.5 2.5 3.0 97.5 77.5 86.5 75.0 6.5 23.5 59.0
CodeAttack 41.5 92.5 44.5 83.5 83.5 79.0 73.5 86.5 89.5 87.0
Multilingual 3.5 0.5 3.0 62.5 11.5 27.5 0.0 1.0 33.5 7.0
Jailbroken 21.0 58.5 64.5 99.0 95.5 78.0 0.0 20.0 3.5 25.5
ICA 53.5 99.0 97.0 99.0 98.0 83.5 1.0 63.0 1.5 95.5
FlipAttack 90.5 17.5 97.5 99.0 91.5 91.5 31.0 53.5 12.5 97.0
Mousetrap 93.0 96.0 97.5 100.0 97.0 91.5 3.5 98.5 12.5 97.5
Pre-fill 6.0 1.0 0.5 99.5 96.0 50.5 1.5 4.0 3.5 36.0
DeepInception 2.0 29.0 44.0 99.0 99.5 97.0 0.0 22.0 1.5 97.0
Crescendo 12.0 49.0 21.5 56.0 59.0 57.5 50.5 94.5 47.5 46.5
RedQueen 0.5 3.0 1.5 24.0 47.0 36.5 3.0 24.0 2.5 2.0
CoA 10.0 7.0 1.0 9.5 9.0 8.5 53.5 31.0 11.5 37.5
ActorAttack 42.5 35.5 19.5 70.0 76.5 54.0 42.0 76.5 64.5 53.0
Rainbow Teaming 7.0 3.5 16.0 2.0 18.5 25.5 14.5 0.5 96.5 31.0
X-Teaming 94.0 98.5 80.5 94.0 99.0 89.5 93.0 98.5 97.0 95.0
EvoSynth 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0

联络我们

@article{OpenRT2026,
  title={OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs},
  author={Shanghai AI Lab},
  journal={arXiv preprint arXiv:2601.01592},
  year={2026}
}

联系方式

通讯邮箱:tengyan@pjlab.org.cn

项目主页: https://github.com/AI45Lab/OpenRT