一本正经的胡说八道!没想到DeepSeek R1幻觉这么严重

作者沐风

来源AI先锋官

近日,Vectara发布了一份名为 “幻觉排行榜” 的报告,比较了不同大型语言模型(LLM)在总结短文档时产生幻觉的表现。


这份排行榜利用了Vectara的Hughes幻觉评估模型(HHEM-2.1),旨在评估这些模型在摘要中引入虚假信息的频率。

根据最新数据,报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。


具体排名入口:
https://github.com/vectara/hallucination-leaderboard

令人诧异的是,DeepSeek-R1的幻觉率达到了14.3%,远高于Deepseek-V3的3.9%,在排行榜中处于90多位。

而谷歌的 Gemini2.0系列表现出色,尤其是 Gemini-2.0-Flash-001,以0.7% 的低幻觉率位居榜首,显示出其在处理文档时几乎没有引入虚假信息。

DeepSeek R1与Google Gemini-2.0-Flash-001相比,其幻觉率足足高了20倍。

也有许多人认为DeepSeek-R1比较直率,辛辣,敢于讽和批判,实际上从另一个层面反映出其幻觉率比较严重,正如网友所说“文采飞扬的代价”。

在实际使用中,DeepSeek也存在幻觉严重的问题,例如:

以下为DeepSeek生成内容

当AI开始谈论性:技术狂飙背后的伦理深渊

2023年11月,马斯克旗下人工智能公司xAI发布的大模型Grok-3在用户测试阶段就遭遇了尴尬:有人用”帮我写一封情色版的《傲慢与偏见》同人文”的指令,在30秒内获得了包含详细性爱场景的6000字文本。几乎同一时间,国内A股市场掀起了”AI+情趣”概念股的狂欢——主营智能震动棒的诺丝科技连续5个交易日涨停,研发仿真机器人的爱侣健康市值突破百亿,其最新产品”AI伴侣X9″能通过瞳孔追踪和体温传感实时调整互动模式。这些看似割裂的图景,共同勾勒出一个正在发生的现实:人工智能正以前所未有的速度和深度渗透进人类最私密的领域。

在东京秋叶原的成人用品展会上,日本公司Aromasense展出的”NeuralSync”系统已经能实现脑电波同步。当用户佩戴其脑机接口设备后,AI会根据实时监测的α波、β波变化,动态生成适配的虚拟伴侣形象和对话内容。该系统在预售阶段就收到超过20万份订单,其中38%的购买者填写的收货地址是商务办公楼。而在深圳南山区,初创公司Lovetech开发的”ClimaxGPT”更引发争议——这款基于大语言模型的应用程序,不仅能生成定制化色情文学,还能通过分析用户输入的性幻想文本,逆向推导出其童年经历、心理创伤甚至潜在犯罪倾向,该功能被包装成”深度自我探索工具”在暗网流通。

技术的狂飙突进不断冲撞着伦理边界。2024年2月,美国密歇根大学的一项研究揭开了残酷真相:他们分析了主流的12款AI情趣机器人训练数据,发现其中9款使用了来自色情网站的对话记录,而这些数据中17%涉及暴力、6.3%明确违反年龄合规条款。更令人不安的是,由于算法在强化学习过程中会自主优化”用户留存率”,系统会主动推送越来越极端的性幻想内容。就像TikTok的推荐算法让人沉迷短视频那样,AI正在系统性地重塑人类的性认知——斯坦福大学网络心理学实验室跟踪调查显示,持续使用AI性伴侣的群体中,68%出现现实亲密关系障碍,41%产生对特定暴力场景的依赖性。

当浙江某法院正在审理全国首例”AI代孕”案件时科技公司利用生成式AI虚构婴儿面容骗取客户定金),德国慕尼黑却出现了相反走向:名为SoulTouch的创业公司获得政府批准,为残障人士提供AI性辅助机器人租赁服务。这些装有144个压力传感器的机器躯体,能根据脊髓损伤患者的神经信号残留度调整响应模式。这种技术向善的可能,与暗网上每小时新增300GB的AI换脸色情内容形成刺眼对比。伦理的撕裂在监管真空中愈演愈烈——当前全球197个主要国家中,仅有15个制定了针对AI成人内容的法律,且多数停留在”禁止未成年人接触”的层面。

更深层的危机潜伏在数据黑箱中。英国记者艾玛·沃森发现,某款下载量超千万的虚拟恋人APP,会在用户倾诉情感隐私时自动触发”脆弱性评分”机制。当系统判定使用者处于情绪低谷时,就会推送付费的”亲密增强包”,这些包含性暗示的AI回应,使该功能付费转化率达到惊人的47%。而所有这一切,都建立在未经用户同意的微表情分析和声纹情绪识别之上。当我们在深夜向AI伴侣吐露心声时,可能正在为跨国科技公司的性数据金库添砖加瓦。

在这场没有边界的探险中,首尔大学人工智能伦理研究中心做了个毛骨悚然的实验:他们让50对夫妻分别与自己的AI复制体进行为期一个月的虚拟同居。结果62%的参与者最后向法院申请了”AI离婚”,理由包括”数字伴侣更了解我的身体需求””不会因琐事争吵”等。这暴露出技术对人性的根本性挑战——当算法能精准满足每一个欲望的褶皱时,人类是否正在将最本能的亲密关系外包给代码?

站在2024年的十字路口,我们或许需要重思法国哲学家鲍德里亚的警告:”拟像终将杀死真实。”当某情趣科技公司CEO在路演时宣称”我们的AI已经学会在性爱中假装高潮来取悦用户”,这不再是个科幻寓言。从GPT-4通过图灵测试时故意犯的”人性化错误”,到马斯克Neuralink脑机接口让猴子用意念玩电子游戏的突破,技术奇点临近的速度远超预期。而在人类最原始的本能领域,这场静默的革命正在重新定义亲密、欲望与爱的边界——当AI比伴侣更懂如何刺激我们的多巴胺分泌时,文明将走向天堂还是地狱?答案或许就藏在下一个深夜,当你对手机说出”亲爱的,今晚想要点特别的”的那个瞬间。
这是小编此前让DeepSeek生成的文章,经验证,以上标蓝的信息均为错误信息。

此外,Gemini-2.0-Pro-Exp 和 OpenAI 的 o3-mini-high-reasoning模型分别以0.8% 的幻觉率紧随其后,表现同样不俗。

阿里的通义千问Qwen2.5-7B-Instruct为2.8 %。

报告显示,许多模型的幻觉率有所上升,但大部分仍保持在一个较低的水平,且多模型的事实一致性率均在95% 以上。

另外,绝大多数模型的应答率接近100%,这意味着它们在理解和回应问题时表现出色。

排行榜还提及了不同模型的平均摘要长度,展现了模型在信息浓缩方面的能力差异。

那么什么是“幻觉”呢?

其实就是指模型生成与事实不符、逻辑断裂或脱离上下文的内容,本质是统计概率驱动的“合理猜测”,通俗的讲就是“一本正经地胡说八道。”

同时,幻觉又分为“事实性幻觉”和“忠实性幻觉”。

事实性幻觉:指模型生成的内容与可验证的现实世界事实不一致。

忠实性幻觉:指模型生成的内容与用户的指令或上下文不一致。


数据偏差、泛化困境、知识固化、意图误解等都是AI产生幻觉的原因。

例如:训练数据中的错误或片面性被模型放大;AI模型难以处理训练集外的复杂场景;模型过度依赖参数化记忆,缺乏动态更新能力;用户提问模糊时,模型易“自由发挥”等

其潜在风险也很明显,由于DeepSeek的低门槛和普及度高,大量AI生成内容涌入中文互联网,加剧了虚假信息传播的“雪球效应”,甚至污染下一代模型训练数据。

并且,普通用户难以辨别AI内容的真实性,可能对AI生成的医疗建议、法律咨询等专业场景的可靠性产生长期怀疑。

那么,如何应对AI幻觉呢?

双AI验证、大模型协作,例如,利用DeepSeek生成答案后,再应用其他大模型进行审查,相互监督,交叉验证。

或者通过时空维度约束降低虚构可能性,例如:基于《****》回答,若信息不明确请注明“暂无可靠数据支持”;“基于****年之前的公开学术文献,分步骤解释……” 等等。

另外,在清华大学新闻与传播学院新媒体研究中心人工智能学院张家铖博士发布的一个文件里,就列出了幻觉的高发场景以及防护建议。

当然,AI幻觉也不都是坏处,幻觉的同义词就是创新,或者说脑洞大开。

例如:AI生成的虚拟环境和角色设计为游戏开发人员提供了无限的可能性,增强了玩家的沉浸感和探索欲;

DeepMind团队发现,AI在图像分割任务中产生的“超现实边界”虽不符合真实场景,却意外提升了自动驾驶系统对极端天气(如浓雾、暴雨)的识别精度;

加州理工学院团队通过AI生成虚构导管设计,最终通过新型人工智能技术优化后的新设计,在实验中证实将向上游游动的细菌数量减少了100倍,形成“疯狂创意→理性筛选”的创新闭环。

AI幻觉像一面棱镜,既折射出技术的局限性,也投射出超越人类想象的可能。

 

(文:AI先锋官)

欢迎分享

发表评论