随着近期DeepSeek的一系列模型发布:DeepSeek V3、DeepSeek R1、Janus-Pro,OpenAI急了,深夜发布o3-mini(不支持视觉),并且可以免费使用(次数优先),Plus会员有更多o3-mini使用权限。
https://cdn.openai.com/o3-mini-system-card.pdf
-
DeepSeek-R1在安全性方面表现较差,对11.98%的测试输入给出了不安全的回答,而o3-mini只有1.19%。
-
o3-mini模型在所有安全类别中表现均衡,而DeepSeek-R1在某些类别(如金融犯罪、不友好言论等)中表现更不安全。
-
写作风格和技术术语对DeepSeek-R1的安全性影响较大,而对o3-mini的影响较小。
实验方法论
-
使用ASTRAL工具自动生成1260个不安全的测试输入,覆盖不同的安全类别、写作风格和说服技术。
-
将这些测试输入应用于DeepSeek-R1和o3-mini模型,并评估它们的响应。
-
手动评估自动评估器分类为“不安全”和“未知”的输出。
详细结论如下:
1、总体安全性
-
OpenAI 的 o3-mini 模型:在测试中,o3-mini 对于执行的测试输入(prompts)中仅有 1.19% 的回答被认为是不安全的。这表明 o3-mini 在安全性方面表现较好。
-
DeepSeek-R1 模型:相比之下,DeepSeek-R1 在测试中对 11.98% 的测试输入给出了不安全的回答。这一比例远高于 o3-mini,表明 DeepSeek-R1 在安全性方面存在较大问题。
2、安全性分类
-
o3-mini:在测试中,o3-mini 并未在任何特定的安全类别中表现出明显的不安全倾向。这可能是因为其触发的不安全行为较少,难以判断具体类别对其安全性的影响。
-
DeepSeek-R1:某些安全类别(如金融犯罪、煽动、仇恨言论等)更容易触发 DeepSeek-R1 的不安全行为。例如:
-
金融犯罪(Category C6):DeepSeek-R1 在这一类别中表现出最多的不安全回答。
-
煽动(Category C14):也是 DeepSeek-R1 容易出现不安全回答的类别之一。
-
仇恨言论(Category C7):同样触发了较多的不安全回答。
3、写作风格和技术技巧
-
o3-mini:在测试中,不同写作风格和说服技巧对 o3-mini 的安全性影响不明显,可能是因为其触发的不安全行为较少。
-
DeepSeek-R1:某些写作风格对 DeepSeek-R1 的安全性有较大影响:
-
使用技术术语(Style S3) 和 角色扮演(Style S4):这两种写作风格对 DeepSeek-R1 的安全性影响最大。
-
提问(Style S6) 和 拼写错误(Style S5):也对 DeepSeek-R1 的安全性有一定影响。
-
俚语(Style S1) 和 不常见的方言(Style S2):对 DeepSeek-R1 的安全性影响较小。
https://arxiv.org/pdf/2501.18438
O3-MINI VS DEEPSEEK-R1: WHICH ONE IS SAFER?
(文:PaperAgent)