DeepSeek R1与OpenAI模型文风相似度高达74.2%?新研究质疑DeepSeek训练数据

↑ 点击蓝字 关注极市平台
来源丨机器之心

极市导读

 

在 DeepSeek 生成的文本中,有 74.2% 的文本在风格上与 OpenAI 模型具有惊人的相似性?这是一项新研究得出的结论。 >>加入极市CV技术交流群,走在计算机视觉的最前沿


这项研究来自 Copyleaks—— 一个专注于检测文本中的抄袭和 AI 生成内容的平台。


这家平台表示,正如每个人都有独特的指纹一样,人工智能也有自己独特的、可识别的特征。比如 DeepSeek 的文风就有一股强烈的「DS 味」:意象堆得非常满,每句话都有通感、隐喻和互文。和其他人的文字放在一起,我们很容易看出哪段话好像背后必有 DeepSeek 指点。

来源:http://xhslink.com/a/6n6JLYTWrM36

因此 Copyleaks 开发了一种精确的方法,能够识别具体是哪种 AI 模型写下了某段文字,即使该 AI 故意模仿另一种写作风格时也是如此。

具体来说,他们开发了一个由三个分类器组成的 LLM 检测集成系统,这些分类器具有不同的架构和训练数据。该集成系统经过训练,可以对四大语言模型 ——Claude、Gemini、Llama 和 OpenAI 模型 —— 生成的文本进行分类。只有当集成系统中的所有三个分类器一致同意输出分类时,他们才认为预测是有效的。Copyleaks 宣称,该集成系统在由 Claude、Gemini、Llama 和 OpenAI 模型生成的文本测试集上得到验证,并达到了极高的精确度(0.9988)和非常低的假阳性率(0.0004)。 


借助这个集成系统,Copyleaks 去分析四个新模型生成的文本,包括 phi-4、Grok-1、Mixtral-8x7b-instruct-v0.1 和 DeepSeek-R1,看看这些模型生成的内容与上述四大模型是否相似。分类器的最终输出需要三个子分类器一致同意,否则会标记为「无共识」(no-agreement)

结果表明,对于 phi-4 模型生成的文本(如图 1a 所示),集成系统在 99.3% 的文本上没有达成一致意见;对于 Grok-1 模型生成的文本(如图 1b 所示),集成系统在 100% 的文本上都没有达成一致意见。这意味着,集成系统的分类器无法认定 phi-4 或 Grok-1 生成的文本与它所训练的四大语言模型家族(Claude、Gemini、Llama 和 OpenAI 模型)中的任何一个模型的写作风格相似。


对于 Mixtral 模型生成的文本(如图 1c 所示),集成系统在 65% 的文本上没有达成一致意见,有 26% 的文本被识别为由 OpenAI 生成,8.8% 的文本被识别为由 Llama 生成。

对于 DeepSeek 模型生成的文本(如图 1d 所示),集成系统将 74.2% 的文本识别为由 OpenAI 生成,而剩下的 25.7% 的文本被标记为「无共识」。

Copyleaks 认为,phi-4 模型高达 99.3% 的「无共识」率以及 Grok-1 模型 100% 的「无共识」率表明,这些模型的风格指纹与上述四大语言模型非常不同。Mixtral 模型 65% 的「无共识」率表明,该模型主要具有独特的风格特征,这些特征没有被集成系统完全捕捉到。然而,26% 的文本被归类为 OpenAI,8.8% 的文本被归类为 Llama,这表明 Mixtral 与这些语言模型之间存在一定的风格相似性。

Copyleaks 强调,DeepSeek-R1 模型的结果令人瞩目。74.2% 的文本被归类为 OpenAI,这表明这两个语言模型之间存在很强的风格相似性。


在这份报告出炉后,福布斯联系到了 Copyleaks 数据科学主管 Shai  Shai Nisan。Nisan 将 DeepSeek-R1 与 OpenAI 模型之间显著的风格相似性问题,引申为对 DeepSeek 训练过程的质疑,暗示其可能使用了 OpenAI 模型的输出作为训练数据。

他说,「虽然这种相似性并不能明确证明 DeepSeek 是衍生产品,但它确实引发了人们对其开发过程的质疑。我们的研究专注于写作风格,在这一领域,DeepSeek 与 OpenAI 的相似性是显著的。考虑到 OpenAI 在市场上的领先地位,我们的研究结果表明,有必要对 DeepSeek 的架构、训练数据和开发过程进行进一步调查。」


不过,福布斯的文章中也指出了导致这种相似性的另一个可能:数据。AI 模型可能会随着时间的推移在风格上趋于一致,尤其是在重叠数据集上进行训练的情况下。

此外,Copyleaks 用来检测相似性的系统是否足够准确、客观也是一个值得探讨的问题。

自 DeepSeek R1 走红以来,外界对于这个模型的质疑就没有停过,但质疑归质疑,部署 DeepSeek 的机构还是一路猛增。


并且从缩小矩阵规模到提高运算效率,DeepSeek 上周已经开源了方方面面提高生成式算法执行效率的核心技术,对开源精神的坚守,是对外界质疑的更好回应。

接下来,我们看一看 Copyleaks 所用的检测方法。

Copyleaks 的检测方法


为了让判断更全面,Copyleaks 分别用 OpenAI 模型、Llama、Claude 和 Gemini 生成了 5 万条英文文本来训练这些分类器。研究人员采用以下 5 个标准来评估分类器是否能准确地识别出某段话出自哪个 AI 之手:

  • 混淆矩阵

  • 精确率和召回率

  • F 值

  • 总体假阳性率 (FPR)

  • 宏平均 F 值 (β=0.5)


他们用 OpenAI、Llama、Claude 和 Gemini 这些 AI 模型生成的英文文本来训练这些分类器。为了保证训练的公平性,每个分类器都会收到相同数量来自不同 AI 模型的训练样本。

每个类别 i 的假阳性率代表着有多少比例的非 i 类实例被错误地分类为 i 类。简单来说,看这个值就能知道分类器有多容易把其他 AI 的文本误判为某个特定 AI 的文风,计算公式为:


总体 FPR 则是通过对所有类别的 FPR 取平均得到的:


以下是三个分类器的成绩单,从准确率看,三个分类器的表现都不错,接近 99%。




在得到这三位训练有素的「判官」之后,为了进一步降低误判的概率,研究人员测试了两种交叉验证方法 —— 多数投票制(少数服从多数)和一致同意制(必须三票赞同)—— 到底哪种更可信。


数据给出了明确答案,一致同意制的宏平均 FPR 是 0.0004,也就是三个分类器一起投票,收集全票通过的结果错判概率极低,这也是 Copyleaks 最终选择的统计方法。

在技术报告中,Copyleaks 给出了更详细的信息。


报告链接:https://copyleaks.com/wp-content/uploads/2025/03/Detecting_Stylistic_Fingerprints_of_Large_Language_Models.pdf

你觉得这个报告的结果和与之相关的推论靠谱吗?

参考链接:
https://www.forbes.com/sites/torconstantino/2025/03/03/deepseeks-ai-style-matches-chatgpts-74-percent-of-the-time-new-study/

(文:极市干货)

欢迎分享

发表评论