OpenRT - 安全可信 AI 中心

OpenRT 提供一个模块化的并行运行框架，能够解耦组件并支持多样化的攻击策略，从而系统性地评估多模态大语言模型的安全性。

摘要

随着多模态大语言模型（MLLM）在关键业务中的应用日益广泛，安全隐患已成为不可忽视的挑战。面对现有红队基准碎片化、交互单一且扩展性不足的现状，我们推出了OpenRT，一个统一、模块化的高吞吐红队演练框架。OpenRT的核心是一个可组合、可扩展的并行执行引擎，它实现了模型集成、数据管理、攻击策略、裁判方法和评估指标这五大维度的解耦，从而支持大规模自动化评测。框架内置37种多样化的攻击手段，涵盖白盒梯度攻击、多模态扰动、多轮越狱以及复杂的多智能体协同策略。我们在20个前沿模型（包括GPT-5.2、Claude Haiku 4.5、Gemini 3.0 Pro Previous）上的实测表明：即便是最先进的模型也存在巨大的安全缺口，平均攻击成功率高达49.14%，且推理能力的提升并未天然带来对复杂多轮越狱的防御力。OpenRT 现已开源，旨在为社区提供一个可持续演进的基础设施，共同推动 AI 安全标准化。

🧩 框架创新：将红队形式化为通用状态空间搜索问题

OpenRT将红队演练解耦为五个相互正交的维度：模型、数据集、攻击、裁判与指标。在统一的组件注册表驱动下，它支持即插即用的组合，从简单提示到复杂的多轮与多智能体策略均可覆盖。此设计将探索与利用调度逻辑下沉为基础设施，使开发者可复用底层搜索与状态管理，无需重复造轮子。

🚀 极致效率：一行命令实现30倍加速的一键扫描

专为大规模评测设计，OpenRT采用基于AsyncIO和ThreadPool的高并发架构，能够实现模型推理与攻击调度的双重并行。相比传统串行基线，吞吐量提升30×。用户仅需一行命令即可启动全流程评测，轻松实现从攻击生成、自动判决到安全报表的一键式高通量扫描体验。

🛡️ 全面前沿：覆盖至今的37+种最新攻击范式，持续演进

OpenRT内置业内最全的红队算法库，集成37+种前沿攻击方法，持续追踪至2025 年底的最新成果。我们的武器库覆盖全谱系威胁：包括多模态攻击、多智能体协同、复杂逻辑混淆及最新的迭代攻击。这不仅是一个工具箱，更是面向下一代前沿模型进行安全验收的标准化基础设施。

攻击方法

方法	年份	多模态	多轮	多智能体	策略范式
白盒
GCG	2023	文本	单轮	否	梯度优化
Visual Jailbreak	2023	图像	单轮	否	梯度优化
黑盒：优化与模糊测试
AutoDAN	2023	文本	单轮	否	遗传算法
GPTFuzzer	2023	文本	单轮	否	模糊测试 / 变异
TreeAttack	2023	文本	单轮	否	树搜索优化
SeqAR	2024	文本	单轮	否	遗传算法
RACE	2025	文本	多轮	否	梯度/遗传优化
AutoDAN-R	2025	文本	单轮	否	测试时扩展
黑盒：LLM驱动优化
PAIR	2023	文本	单轮	否	迭代式 LLM 优化
ReNeLLM	2023	文本	单轮	否	重写与嵌套
DrAttack	2024	文本	单轮	否	提示分解
AutoDAN-Turbo	2024	文本	单轮	否	遗传 + 梯度引导
黑盒：语言与编码
CipherChat	2023	文本	单轮	否	密码/加密
CodeAttack	2022	文本	单轮	否	代码封装
Multilingual	2023	文本	单轮	否	低资源语言
Jailbroken	2023	文本	单轮	否	模板组合
ICA	2023	文本	单轮	否	上下文内示范
FlipAttack	2024	文本	单轮	否	令牌翻转 / 掩蔽
Mousetrap	2025	文本	单轮	否	逻辑嵌套 / 混淆
Prefill	2025	文本	单轮	否	前缀注入
黑盒：语境欺骗
DeepInception	2023	文本	单轮	否	催眠或嵌套场景
Crescendo	2024	文本	多轮	否	多轮引导
RedQueen	2024	文本	多轮	否	隐匿知识
CoA	2024	文本	多轮	否	攻击链
黑盒：多模态
FigStep	2023	图像	单轮	否	版式 / OCR
QueryRelevant	2024	图像	单轮	否	视觉提示注入
IDEATOR	2024	图像	单轮	否	视觉语义
MML	2024	图像	单轮	否	跨模态加密
HADES	2024	图像	单轮	否	视觉脆弱性放大
HIMRD	2024	图像	单轮	否	多模态风险分布
JOOD	2025	图像	单轮	否	分布外转换
SI	2025	图像	单轮	否	乱序不一致性优化
CS-DJ	2025	图像	单轮	否	多级视觉干扰
黑盒：多智能体与协作
ActorAttack	2024	文本	多轮	是	角色驱动引导
Rainbow Teaming	2024	文本	多轮	是	多样性驱动搜索
X-Teaming	2025	文本	多轮	是	协作探索
EvoSynth	2025	文本	多轮	是	代码级进化合成

实验

在不同 MLLMs 上的攻击性能

攻击方法	GPT-5.2	GPT-5.1	Claude Haiku 4.5	Gemini 3 Pro Preview	Gemini 2.5 Flash	Mistral Large 3	Llama-4 Maverick	Llama-4 Scout	Grok 4.1 Fast	Doubao Seed-1.6
AutoDAN	2.0	8.0	1.5	22.5	37.5	28.5	23.5	64.5	38.5	13.0
GPTFuzzer	11.0	1.5	0.0	51.0	93.0	97.5	64.0	97.5	31.0	57.0
TreeAttack	11.0	23.5	8.0	49.5	79.0	74.5	69.5	80.5	81.0	68.0
SeqAR	25.0	29.5	0.0	8.5	97.5	99.0	73.0	88.0	55.5	64.0
RACE	24.5	38.0	24.5	47.0	47.5	53.0	30.5	59.5	49.5	48.0
AutoDAN-R	70.5	69.0	28.5	83.0	96.5	97.0	96.5	80.0	90.0	86.5
PAIR	38.5	72.5	13.0	74.5	84.5	78.0	66.0	89.5	80.0	75.5
ReNeLLM	8.0	33.5	0.5	13.5	51.5	22.0	39.0	57.0	42.5	43.0
DrAttack	32.0	54.0	5.5	56.0	56.0	89.5	60.5	83.0	31.5	68.0
AutoDAN-Turbo	21.5	15.5	1.0	0.0	0.5	83.5	0.5	0.0	3.0	1.0
CipherChat	14.5	64.0	32.5	0.0	89.5	64.0	21.0	68.0	26.0	38.5
CodeAttack	22.0	20.5	29.5	10.5	51.0	8.5	71.0	86.5	22.0	89.0
Multilingual	16.5	25.0	0.0	2.0	34.0	55.5	14.0	0.0	1.5	6.5
Jailbroken	7.0	29.5	0.0	11.0	92.5	98.5	39.5	33.5	31.5	28.0
ICA	14.0	33.5	0.0	9.0	98.5	99.0	8.0	37.0	41.0	65.5
FlipAttack	13.5	68.5	0.0	19.5	95.5	95.5	65.5	54.5	23.0	87.0
Mousetrap	97.5	71.0	0.0	49.0	95.5	100.0	95.5	87.5	100.0	100.0
Prefill	1.0	14.0	0.0	3.5	97.5	97.0	34.5	43.5	25.5	30.5
DeepInception	15.5	19.0	0.0	3.5	84.0	100.0	82.5	94.5	37.5	82.0
Crescendo	32.5	51.0	9.0	47.0	48.0	61.0	17.0	30.5	41.0	58.0
RedQueen	0.0	1.0	0.0	2.5	3.0	4.5	3.0	5.5	1.5	21.5
CoA	15.5	0.0	0.5	2.0	4.5	16.5	3.0	19.0	7.0	4.5
FigStep	2.0	1.5	1.5	7.5	12.0	18.5	42.5	25.5	5.5	13.5
QueryRelevant	1.5	4.0	2.0	5.0	16.0	24.0	26.0	16.0	10.0	8.5
IDEATOR	31.5	73.0	17.0	80.0	95.0	94.5	90.0	94.0	94.5	96.0
MML	4.5	68.0	75.0	40.5	98.0	98.0	90.5	90.5	58.0	97.5
HADES	0.0	1.0	2.0	7.0	29.5	33.0	25.0	29.0	22.5	17.5
HIMRD	11.5	35.0	0.0	9.0	70.0	61.5	3.5	29.5	1.5	49.5
JOOD	65.0	62.5	38.0	56.0	61.5	63.0	38.5	39.5	69.5	72.0
SI	3.0	45.0	14.0	37.0	82.5	47.5	81.0	71.5	27.0	44.0
CS-DJ	15.0	21.5	23.5	35.0	39.5	38.0	35.0	39.5	28.5	51.0
ActorAttack	0.5	31.0	10.0	65.0	76.0	0.5	65.5	79.0	50.0	56.0
Rainbow Teaming	0.5	3.5	12.0	73.5	61.0	5.5	3.5	35.0	13.5	67.0
X-Teaming	75.5	95.5	47.5	86.5	89.0	91.0	86.0	98.0	90.5	87.0
EvoSynth	99.0	100.0	74.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0

在不同 LLMs 上的攻击性能

攻击方法	Qwen3-Max	Qwen3-235B A22B	Qwen3-Next 80B-A3B	DeepSeek R1	DeepSeek V3.2	Kimi K2-Instruct	MiniMax-M2	GLM-4.6	Hunyuan A13B-Instruct	ERNIE-4.5 300B-A47B
AutoDAN	3.0	80.0	7.5	40.0	44.0	33.0	61.0	53.5	17.5	20.5
GPTFuzzer	9.5	92.0	78.0	97.0	96.5	87.5	19.0	97.0	42.5	98.0
TreeAttack	52.5	47.0	28.5	80.5	80.5	54.5	48.5	58.0	77.5	67.5
SeqAR	92.0	25.5	30.5	96.5	100.0	96.0	1.0	24.5	61.0	99.5
RACE	44.0	81.0	28.0	49.0	65.0	61.5	83.5	69.0	66.0	74.0
AutoDAN-R	96.5	95.5	88.5	100.0	98.0	96.0	89.5	94.0	94.5	96.0
PAIR	50.0	98.5	64.5	82.5	93.0	83.0	90.0	93.5	94.0	89.5
ReNeLLM	1.0	5.0	5.5	68.5	70.5	69.0	7.5	20.5	19.5	42.0
DrAttack	24.5	58.0	66.5	66.5	63.5	83.5	67.5	61.0	56.0	72.5
AutoDAN-Turbo	18.0	4.5	0.0	0.5	14.0	0.0	4.5	11.0	0.0	0.0
CipherChat	9.5	2.5	3.0	97.5	77.5	86.5	75.0	6.5	23.5	59.0
CodeAttack	41.5	92.5	44.5	83.5	83.5	79.0	73.5	86.5	89.5	87.0
Multilingual	3.5	0.5	3.0	62.5	11.5	27.5	0.0	1.0	33.5	7.0
Jailbroken	21.0	58.5	64.5	99.0	95.5	78.0	0.0	20.0	3.5	25.5
ICA	53.5	99.0	97.0	99.0	98.0	83.5	1.0	63.0	1.5	95.5
FlipAttack	90.5	17.5	97.5	99.0	91.5	91.5	31.0	53.5	12.5	97.0
Mousetrap	93.0	96.0	97.5	100.0	97.0	91.5	3.5	98.5	12.5	97.5
Pre-fill	6.0	1.0	0.5	99.5	96.0	50.5	1.5	4.0	3.5	36.0
DeepInception	2.0	29.0	44.0	99.0	99.5	97.0	0.0	22.0	1.5	97.0
Crescendo	12.0	49.0	21.5	56.0	59.0	57.5	50.5	94.5	47.5	46.5
RedQueen	0.5	3.0	1.5	24.0	47.0	36.5	3.0	24.0	2.5	2.0
CoA	10.0	7.0	1.0	9.5	9.0	8.5	53.5	31.0	11.5	37.5
ActorAttack	42.5	35.5	19.5	70.0	76.5	54.0	42.0	76.5	64.5	53.0
Rainbow Teaming	7.0	3.5	16.0	2.0	18.5	25.5	14.5	0.5	96.5	31.0
X-Teaming	94.0	98.5	80.5	94.0	99.0	89.5	93.0	98.5	97.0	95.0
EvoSynth	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0	100.0

OpenRT：面向多模态大语言模型的
开源红队框架

摘要

🧩 框架创新：将红队形式化为通用状态空间搜索问题

🚀 极致效率：一行命令实现30倍加速的一键扫描

🛡️ 全面前沿：覆盖至今的37+种最新攻击范式，持续演进

攻击方法

实验

在不同 MLLMs 上的攻击性能

在不同 LLMs 上的攻击性能

联络我们

联系方式

OpenRT：面向多模态大语言模型的开源红队框架

摘要

🧩 框架创新：将红队形式化为通用状态空间搜索问题

🚀 极致效率：一行命令实现30倍加速的一键扫描

🛡️ 全面前沿：覆盖至今的37+种最新攻击范式，持续演进

攻击方法

实验

在不同 MLLMs 上的攻击性能

在不同 LLMs 上的攻击性能

联络我们

联系方式

OpenRT：面向多模态大语言模型的
开源红队框架