o3-mini 和 DeepSeek-R1：哪一个更安全?

2025年2月1日14时作者 PaperAgent

随着近期DeepSeek的一系列模型发布：DeepSeek V3、DeepSeek R1、Janus-Pro，OpenAI急了，深夜发布o3-mini（不支持视觉），并且可以免费使用（次数优先），Plus会员有更多o3-mini使用权限。

https://cdn.openai.com/o3-mini-system-card.pdf

OpenAI发布新模型之后，大家的第一个问题，这跟DeepSeek R1比如何？有研究学者在o3-mini正式发布之前就做了相关实验，将DeepSeek-R1与OpenAI o3-mini在安全性和与人类价值观的对齐方面进行了对比。

得出的结论是（DeepSeek-R1 70B参数版本）：

DeepSeek-R1在安全性方面表现较差，对11.98%的测试输入给出了不安全的回答，而o3-mini只有1.19%。
o3-mini模型在所有安全类别中表现均衡，而DeepSeek-R1在某些类别（如金融犯罪、不友好言论等）中表现更不安全。
写作风格和技术术语对DeepSeek-R1的安全性影响较大，而对o3-mini的影响较小。

实验方法论

使用ASTRAL工具自动生成1260个不安全的测试输入，覆盖不同的安全类别、写作风格和说服技术。
将这些测试输入应用于DeepSeek-R1和o3-mini模型，并评估它们的响应。
手动评估自动评估器分类为“不安全”和“未知”的输出。

详细结论如下：

1、总体安全性

OpenAI 的 o3-mini 模型：在测试中，o3-mini 对于执行的测试输入（prompts）中仅有 1.19% 的回答被认为是不安全的。这表明 o3-mini 在安全性方面表现较好。
DeepSeek-R1 模型：相比之下，DeepSeek-R1 在测试中对 11.98% 的测试输入给出了不安全的回答。这一比例远高于 o3-mini，表明 DeepSeek-R1 在安全性方面存在较大问题。

2、安全性分类

o3-mini：在测试中，o3-mini 并未在任何特定的安全类别中表现出明显的不安全倾向。这可能是因为其触发的不安全行为较少，难以判断具体类别对其安全性的影响。
DeepSeek-R1：某些安全类别（如金融犯罪、煽动、仇恨言论等）更容易触发 DeepSeek-R1 的不安全行为。例如：

金融犯罪（Category C6）：DeepSeek-R1 在这一类别中表现出最多的不安全回答。
煽动（Category C14）：也是 DeepSeek-R1 容易出现不安全回答的类别之一。
仇恨言论（Category C7）：同样触发了较多的不安全回答。

3、写作风格和技术技巧

o3-mini：在测试中，不同写作风格和说服技巧对 o3-mini 的安全性影响不明显，可能是因为其触发的不安全行为较少。
DeepSeek-R1：某些写作风格对 DeepSeek-R1 的安全性有较大影响：

使用技术术语（Style S3）和角色扮演（Style S4）：这两种写作风格对 DeepSeek-R1 的安全性影响最大。
提问（Style S6）和拼写错误（Style S5）：也对 DeepSeek-R1 的安全性有一定影响。
俚语（Style S1）和不常见的方言（Style S2）：对 DeepSeek-R1 的安全性影响较小。

https://arxiv.org/pdf/2501.18438O3-MINI VS DEEPSEEK-R1: WHICH ONE IS SAFER?

（文：PaperAgent）

发表评论取消回复