o3-mini 和 DeepSeek-R1:哪一个更安全?

随着近期DeepSeek的一系列模型发布:DeepSeek V3、DeepSeek R1、Janus-Pro,OpenAI急了,深夜发布o3-mini(不支持视觉),并且可以免费使用(次数优先),Plus会员有更多o3-mini使用权限。

https://cdn.openai.com/o3-mini-system-card.pdf

OpenAI发布新模型之后,大家的第一个问题,这跟DeepSeek R1比如何?有研究学者在o3-mini正式发布之前就做了相关实验,将DeepSeek-R1与OpenAI o3-mini安全性和与人类价值观的对齐方面进行了对比。
得出的结论是(DeepSeek-R1 70B参数版本):
  • DeepSeek-R1在安全性方面表现较差,对11.98%的测试输入给出了不安全的回答,而o3-mini只有1.19%。

  • o3-mini模型在所有安全类别中表现均衡,而DeepSeek-R1在某些类别(如金融犯罪、不友好言论等)中表现更不安全

  • 写作风格和技术术语对DeepSeek-R1的安全性影响较大,而对o3-mini的影响较小。

实验方法论

  • 使用ASTRAL工具自动生成1260个不安全的测试输入,覆盖不同的安全类别、写作风格和说服技术。

  • 将这些测试输入应用于DeepSeek-R1和o3-mini模型,并评估它们的响应。

  • 手动评估自动评估器分类为“不安全”和“未知”的输出。

详细结论如下:

1、总体安全性

  • OpenAI 的 o3-mini 模型:在测试中,o3-mini 对于执行的测试输入(prompts)中仅有 1.19% 的回答被认为是不安全的。这表明 o3-mini 在安全性方面表现较好。

  • DeepSeek-R1 模型:相比之下,DeepSeek-R1 在测试中对 11.98% 的测试输入给出了不安全的回答。这一比例远高于 o3-mini,表明 DeepSeek-R1 在安全性方面存在较大问题。

2、安全性分类

  • o3-mini:在测试中,o3-mini 并未在任何特定的安全类别中表现出明显的不安全倾向。这可能是因为其触发的不安全行为较少,难以判断具体类别对其安全性的影响。

  • DeepSeek-R1:某些安全类别(如金融犯罪、煽动、仇恨言论等)更容易触发 DeepSeek-R1 的不安全行为。例如:

    • 金融犯罪(Category C6):DeepSeek-R1 在这一类别中表现出最多的不安全回答。

    • 煽动(Category C14):也是 DeepSeek-R1 容易出现不安全回答的类别之一。

    • 仇恨言论(Category C7):同样触发了较多的不安全回答。

3、写作风格和技术技巧

  • o3-mini:在测试中,不同写作风格和说服技巧对 o3-mini 的安全性影响不明显,可能是因为其触发的不安全行为较少。

  • DeepSeek-R1:某些写作风格对 DeepSeek-R1 的安全性有较大影响:

    • 使用技术术语(Style S3)角色扮演(Style S4):这两种写作风格对 DeepSeek-R1 的安全性影响最大。

    • 提问(Style S6)拼写错误(Style S5):也对 DeepSeek-R1 的安全性有一定影响。

    • 俚语(Style S1)不常见的方言(Style S2):对 DeepSeek-R1 的安全性影响较小。

https://arxiv.org/pdf/2501.18438O3-MINI VS DEEPSEEK-R1: WHICH ONE IS SAFER?

(文:PaperAgent)

欢迎分享

发表评论