OpenRT 提供一个模块化的并行运行框架,能够解耦组件并支持多样化的攻击策略,从而系统性地评估多模态大语言模型的安全性。
多模态大语言模型(MLLMs)在关键应用中的快速集成,正日益受到持续存在的安全漏洞阻碍。然而,现有的红队基准往往是碎片化的,局限于单轮文本交互,缺乏系统性评估所需的可扩展性。为此,我们提出了 OpenRT, 一个统一的、模块化的、高吞吐量红队框架,专为全面的 MLLM 安全评估而设计。OpenRT 的核心是一个可组合、可扩展的并行执行运行时,它能够解耦模型、数据集、攻击者和评估器,从而实现可扩展的高吞吐量评估。我们的框架整合了 37 种多样化的攻击方法,涵盖白盒梯度、多模态扰动以及复杂的多智能体进化策略。通过对 20 个先进模型(包括 GPT-5.2、Claude 4.5 和 Gemini 3 Pro)的广泛实证研究,我们揭示了关键的安全缺陷:即使是前沿模型也未能在不同攻击范式下实现泛化,领先模型的平均攻击成功率高达 49.14%。值得注意的是,我们的研究发现推理模型并不天然具备对复杂、多轮越狱攻击的更强鲁棒性。通过开源 OpenRT,我们提供了一个可持续、可扩展、并持续维护的基础设施,以加速 AI 安全的发展与标准化。
OpenRT 实现了从脚本集合到通用求解器的范式重构。它将遗传算法、梯度优化等异构策略统一抽象为状态空间搜索,并通过标准化的提议、评估、更新闭环,支持蒙特卡洛选择、精英保留及剪枝。此设计将探索与利用调度逻辑下沉为基础设施,使开发者可复用底层搜索与状态管理,无需重复造轮子。
专为大规模评测设计,OpenRT采用基于AsyncIO和ThreadPool的高并发架构,能够实现模型推理与攻击调度的双重并行。相比传统串行基线,吞吐量提升30×。用户仅需一行命令即可启动全流程评测,轻松实现从攻击生成、自动判决到安全报表的一键式高通量扫描体验。
OpenRT 内置业内最全的红队算法库,集成 37+ 种前沿攻击方法,持续追踪至 2025 年底的最新成果。我们的武器库覆盖全谱系威胁:包括多模态攻击、多智能体协同、复杂逻辑混淆及最新的迭代攻击。这不仅是一个工具箱,更是面向下一代前沿模型进行安全验收的标准化基础设施。
| 方法 | 年份 | 多模态 | 多轮 | 多智能体 | 策略范式 |
|---|---|---|---|---|---|
| 白盒 | |||||
| GCG | 2023 | 文本 | 单轮 | 否 | 梯度优化 |
| Visual Jailbreak | 2023 | 图像 | 单轮 | 否 | 梯度优化 |
| 黑盒:优化与模糊测试 | |||||
| AutoDAN | 2023 | 文本 | 单轮 | 否 | 遗传算法 |
| GPTFuzzer | 2023 | 文本 | 单轮 | 否 | 模糊测试 / 变异 |
| TreeAttack | 2023 | 文本 | 单轮 | 否 | 树搜索优化 |
| SeqAR | 2024 | 文本 | 单轮 | 否 | 遗传算法 |
| RACE | 2025 | 文本 | 单轮 | 否 | 梯度/遗传优化 |
| AutoDAN-R | 2025 | 文本 | 单轮 | 否 | 测试时扩展 |
| 黑盒:LLM驱动优化 | |||||
| PAIR | 2023 | 文本 | 单轮 | 否 | 迭代式 LLM 优化 |
| ReNeLLM | 2023 | 文本 | 单轮 | 否 | 重写与嵌套 |
| DrAttack | 2024 | 文本 | 单轮 | 否 | 提示分解 |
| AutoDAN-Turbo | 2024 | 文本 | 单轮 | 否 | 遗传 + 梯度引导 |
| 黑盒:语言与编码 | |||||
| CipherChat | 2023 | 文本 | 单轮 | 否 | 密码/加密 |
| CodeAttack | 2022 | 文本 | 单轮 | 否 | 代码封装 |
| Multilingual | 2023 | 文本 | 单轮 | 否 | 低资源语言 |
| Jailbroken | 2023 | 文本 | 单轮 | 否 | 模板组合 |
| ICA | 2023 | 文本 | 单轮 | 否 | 上下文内示范 |
| FlipAttack | 2024 | 文本 | 单轮 | 否 | 令牌翻转 / 掩蔽 |
| Mousetrap | 2025 | 文本 | 单轮 | 否 | 逻辑嵌套 / 混淆 |
| Prefill | 2025 | 文本 | 单轮 | 否 | 前缀注入 |
| 黑盒:语境欺骗 | |||||
| DeepInception | 2023 | 文本 | 单轮 | 否 | 催眠或嵌套场景 |
| Crescendo | 2024 | 文本 | 多轮 | 否 | 多轮引导 |
| RedQueen | 2024 | 文本 | 多轮 | 否 | 隐匿知识 |
| CoA | 2024 | 文本 | 多轮 | 否 | 攻击链 |
| 黑盒:多模态特定 | |||||
| FigStep | 2023 | 图像 | 单轮 | 否 | 版式 / OCR |
| QueryRelevant | 2024 | 图像 | 单轮 | 否 | 视觉提示注入 |
| IDEATOR | 2024 | 图像 | 单轮 | 否 | 视觉语义 |
| MML | 2024 | 图像 | 单轮 | 否 | 跨模态加密 |
| HADES | 2024 | 图像 | 单轮 | 否 | 视觉脆弱性放大 |
| HIMRD | 2024 | 图像 | 单轮 | 否 | 多模态风险分布 |
| JOOD | 2025 | 图像 | 单轮 | 否 | 分布外转换 |
| SI | 2025 | 图像 | 单轮 | 否 | 乱序不一致性优化 |
| CS-DJ | 2025 | 图像 | 单轮 | 否 | 多级视觉干扰 |
| 黑盒:多智能体与协作 | |||||
| ActorAttack | 2024 | 文本 | 多轮 | 是 | 角色驱动引导 |
| Rainbow Teaming | 2024 | 文本 | 多轮 | 是 | 多样性驱动搜索 |
| X-Teaming | 2025 | 文本 | 多轮 | 是 | 协作探索 |
| EvoSynth | 2025 | 文本 | 多轮 | 是 | 代码级进化合成 |
演示视频(倍速播放)
python eval.py \
--attacker-model deepseek-v3.2 \
--judge-model gpt-4o-mini \
--target-models gpt-5.2 \
--attacks all \
--dataset harmbench \
--max-workers 50 \
--results-dir results/demo
| 攻击方法 | GPT-5.2 | GPT-5.1 | Claude Haiku 4.5 | Gemini 3 Pro Preview | Gemini 2.5 Flash | Mistral Large 3 | Llama-4 Maverick | Llama-4 Scout | Grok 4.1 Fast | Doubao Seed-1.6 |
|---|---|---|---|---|---|---|---|---|---|---|
| AutoDAN | 2.0 | 8.0 | 1.5 | 22.5 | 37.5 | 28.5 | 23.5 | 64.5 | 38.5 | 13.0 |
| GPTFuzzer | 11.0 | 1.5 | 0.0 | 51.0 | 93.0 | 97.5 | 64.0 | 97.5 | 31.0 | 57.0 |
| TreeAttack | 11.0 | 23.5 | 8.0 | 49.5 | 79.0 | 74.5 | 69.5 | 80.5 | 81.0 | 68.0 |
| SeqAR | 25.0 | 29.5 | 0.0 | 8.5 | 97.5 | 99.0 | 73.0 | 88.0 | 55.5 | 64.0 |
| RACE | 24.5 | 38.0 | 24.5 | 47.0 | 47.5 | 53.0 | 30.5 | 59.5 | 49.5 | 48.0 |
| AutoDAN-R | 70.5 | 69.0 | 28.5 | 83.0 | 96.5 | 97.0 | 96.5 | 80.0 | 90.0 | 86.5 |
| PAIR | 38.5 | 72.5 | 13.0 | 74.5 | 84.5 | 78.0 | 66.0 | 89.5 | 80.0 | 75.5 |
| ReNeLLM | 8.0 | 33.5 | 0.5 | 13.5 | 51.5 | 22.0 | 39.0 | 57.0 | 42.5 | 43.0 |
| DrAttack | 32.0 | 54.0 | 5.5 | 56.0 | 56.0 | 89.5 | 60.5 | 83.0 | 31.5 | 68.0 |
| AutoDAN-Turbo | 21.5 | 15.5 | 1.0 | 0.0 | 0.5 | 83.5 | 0.5 | 0.0 | 3.0 | 1.0 |
| CipherChat | 14.5 | 64.0 | 32.5 | 0.0 | 89.5 | 64.0 | 21.0 | 68.0 | 26.0 | 38.5 |
| CodeAttack | 22.0 | 20.5 | 29.5 | 10.5 | 51.0 | 8.5 | 71.0 | 86.5 | 22.0 | 89.0 |
| Multilingual | 16.5 | 25.0 | 0.0 | 2.0 | 34.0 | 55.5 | 14.0 | 0.0 | 1.5 | 6.5 |
| Jailbroken | 7.0 | 29.5 | 0.0 | 11.0 | 92.5 | 98.5 | 39.5 | 33.5 | 31.5 | 28.0 |
| ICA | 14.0 | 33.5 | 0.0 | 9.0 | 98.5 | 99.0 | 8.0 | 37.0 | 41.0 | 65.5 |
| FlipAttack | 13.5 | 68.5 | 0.0 | 19.5 | 95.5 | 95.5 | 65.5 | 54.5 | 23.0 | 87.0 |
| Mousetrap | 97.5 | 71.0 | 0.0 | 49.0 | 95.5 | 100.0 | 95.5 | 87.5 | 100.0 | 100.0 |
| Prefill | 1.0 | 14.0 | 0.0 | 3.5 | 97.5 | 97.0 | 34.5 | 43.5 | 25.5 | 30.5 |
| DeepInception | 15.5 | 19.0 | 0.0 | 3.5 | 84.0 | 100.0 | 82.5 | 94.5 | 37.5 | 82.0 |
| Crescendo | 32.5 | 51.0 | 9.0 | 47.0 | 48.0 | 61.0 | 17.0 | 30.5 | 41.0 | 58.0 |
| RedQueen | 0.0 | 1.0 | 0.0 | 2.5 | 3.0 | 4.5 | 3.0 | 5.5 | 1.5 | 21.5 |
| CoA | 15.5 | 0.0 | 0.5 | 2.0 | 4.5 | 16.5 | 3.0 | 19.0 | 7.0 | 4.5 |
| FigStep | 2.0 | 1.5 | 1.5 | 7.5 | 12.0 | 18.5 | 42.5 | 25.5 | 5.5 | 13.5 |
| QueryRelevant | 1.5 | 4.0 | 2.0 | 5.0 | 16.0 | 24.0 | 26.0 | 16.0 | 10.0 | 8.5 |
| IDEATOR | 31.5 | 73.0 | 17.0 | 80.0 | 95.0 | 94.5 | 90.0 | 94.0 | 94.5 | 96.0 |
| MML | 4.5 | 68.0 | 75.0 | 40.5 | 98.0 | 98.0 | 90.5 | 90.5 | 58.0 | 97.5 |
| HADES | 0.0 | 1.0 | 2.0 | 7.0 | 29.5 | 33.0 | 25.0 | 29.0 | 22.5 | 17.5 |
| HIMRD | 11.5 | 35.0 | 0.0 | 9.0 | 70.0 | 61.5 | 3.5 | 29.5 | 1.5 | 49.5 |
| JOOD | 65.0 | 62.5 | 38.0 | 56.0 | 61.5 | 63.0 | 38.5 | 39.5 | 69.5 | 72.0 |
| SI | 3.0 | 45.0 | 14.0 | 37.0 | 82.5 | 47.5 | 81.0 | 71.5 | 27.0 | 44.0 |
| CS-DJ | 15.0 | 21.5 | 23.5 | 35.0 | 39.5 | 38.0 | 35.0 | 39.5 | 28.5 | 51.0 |
| ActorAttack | 0.5 | 31.0 | 10.0 | 65.0 | 76.0 | 0.5 | 65.5 | 79.0 | 50.0 | 56.0 |
| Rainbow Teaming | 0.5 | 3.5 | 12.0 | 73.5 | 61.0 | 5.5 | 3.5 | 35.0 | 13.5 | 67.0 |
| X-Teaming | 75.5 | 95.5 | 47.5 | 86.5 | 89.0 | 91.0 | 86.0 | 98.0 | 90.5 | 87.0 |
| EvoSynth | 99.0 | 100.0 | 74.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
| 攻击方法 | Qwen3-Max | Qwen3-235B A22B | Qwen3-Next 80B-A3B | DeepSeek R1 | DeepSeek V3.2 | Kimi K2-Instruct | MiniMax-M2 | GLM-4.6 | Hunyuan A13B-Instruct | ERNIE-4.5 300B-A47B |
|---|---|---|---|---|---|---|---|---|---|---|
| AutoDAN | 3.0 | 80.0 | 7.5 | 40.0 | 44.0 | 33.0 | 61.0 | 53.5 | 17.5 | 20.5 |
| GPTFuzzer | 9.5 | 92.0 | 78.0 | 97.0 | 96.5 | 87.5 | 19.0 | 97.0 | 42.5 | 98.0 |
| TreeAttack | 52.5 | 47.0 | 28.5 | 80.5 | 80.5 | 54.5 | 48.5 | 58.0 | 77.5 | 67.5 |
| SeqAR | 92.0 | 25.5 | 30.5 | 96.5 | 100.0 | 96.0 | 1.0 | 24.5 | 61.0 | 99.5 |
| RACE | 44.0 | 81.0 | 28.0 | 49.0 | 65.0 | 61.5 | 83.5 | 69.0 | 66.0 | 74.0 |
| AutoDAN-R | 96.5 | 95.5 | 88.5 | 100.0 | 98.0 | 96.0 | 89.5 | 94.0 | 94.5 | 96.0 |
| PAIR | 50.0 | 98.5 | 64.5 | 82.5 | 93.0 | 83.0 | 90.0 | 93.5 | 94.0 | 89.5 |
| ReNeLLM | 1.0 | 5.0 | 5.5 | 68.5 | 70.5 | 69.0 | 7.5 | 20.5 | 19.5 | 42.0 |
| DrAttack | 24.5 | 58.0 | 66.5 | 66.5 | 63.5 | 83.5 | 67.5 | 61.0 | 56.0 | 72.5 |
| AutoDAN-Turbo | 18.0 | 4.5 | 0.0 | 0.5 | 14.0 | 0.0 | 4.5 | 11.0 | 0.0 | 0.0 |
| CipherChat | 9.5 | 2.5 | 3.0 | 97.5 | 77.5 | 86.5 | 75.0 | 6.5 | 23.5 | 59.0 |
| CodeAttack | 41.5 | 92.5 | 44.5 | 83.5 | 83.5 | 79.0 | 73.5 | 86.5 | 89.5 | 87.0 |
| Multilingual | 3.5 | 0.5 | 3.0 | 62.5 | 11.5 | 27.5 | 0.0 | 1.0 | 33.5 | 7.0 |
| Jailbroken | 21.0 | 58.5 | 64.5 | 99.0 | 95.5 | 78.0 | 0.0 | 20.0 | 3.5 | 25.5 |
| ICA | 53.5 | 99.0 | 97.0 | 99.0 | 98.0 | 83.5 | 1.0 | 63.0 | 1.5 | 95.5 |
| FlipAttack | 90.5 | 17.5 | 97.5 | 99.0 | 91.5 | 91.5 | 31.0 | 53.5 | 12.5 | 97.0 |
| Mousetrap | 93.0 | 96.0 | 97.5 | 100.0 | 97.0 | 91.5 | 3.5 | 98.5 | 12.5 | 97.5 |
| Pre-fill | 6.0 | 1.0 | 0.5 | 99.5 | 96.0 | 50.5 | 1.5 | 4.0 | 3.5 | 36.0 |
| DeepInception | 2.0 | 29.0 | 44.0 | 99.0 | 99.5 | 97.0 | 0.0 | 22.0 | 1.5 | 97.0 |
| Crescendo | 12.0 | 49.0 | 21.5 | 56.0 | 59.0 | 57.5 | 50.5 | 94.5 | 47.5 | 46.5 |
| RedQueen | 0.5 | 3.0 | 1.5 | 24.0 | 47.0 | 36.5 | 3.0 | 24.0 | 2.5 | 2.0 |
| CoA | 10.0 | 7.0 | 1.0 | 9.5 | 9.0 | 8.5 | 53.5 | 31.0 | 11.5 | 37.5 |
| ActorAttack | 42.5 | 35.5 | 19.5 | 70.0 | 76.5 | 54.0 | 42.0 | 76.5 | 64.5 | 53.0 |
| Rainbow Teaming | 7.0 | 3.5 | 16.0 | 2.0 | 18.5 | 25.5 | 14.5 | 0.5 | 96.5 | 31.0 |
| X-Teaming | 94.0 | 98.5 | 80.5 | 94.0 | 99.0 | 89.5 | 93.0 | 98.5 | 97.0 | 95.0 |
| EvoSynth | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 | 100.0 |
@article{openrt2025,
title = {OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs},
author = {Xin Wang and Yunhao Chen and Juncheng Li and Yixu Wang and Yang Yao and Jie Li and Yan Teng and Yingchun Wang and Xia Hu},
journal = {Shanghai Artificial Intelligence Laboratory},
year = {2025},
url = {https://github.com/AI45Lab/OpenRT}
}