一手实测文心4.5和X1：不输DeepSeek

来了！文心大模型4.5今日如期上线。同时，百度还意外的带来了自家的深度思考模型文心X1。

文心大模型4.5是百度的新一代原生多模态基础大模型，多模态理解能力优秀，理解、生成、逻辑、记忆能力全面提升，多项基准测试成绩优于GPT4.5、DeepSeek-V3，API价格仅GPT4.5的1%。

多模态能力

文本能力

文心大模型X1是首个自主运用工具的深度思考模型，具备更强的理解、规划、反思、进化能力，效果对标DeepSeek R1，API价格仅R1一半。

目前，2款模型已在文心一言官网上线，所有用户可免费使用（不用等到4月1日）。

体验地址：https://yiyan.baidu.com

文心4.5和X1有何亮点？

文心4.5，是百度的新一代原生多模态基础大模型。一家公司模型能力强不强，其基础模型至关重要。

据介绍，文心4.5重点提升能力有：

1）原生多模态。通过多个模态联合建模实现协同优化，能够在输入和输出端同时支持多种模态，具备出色的多模态理解和跨模态迁移能力。
2）更精进的语言能力，理解、生成、逻辑、记忆能力全面提升。
3）去幻觉、逻辑推理、代码能力显著提升。

文心X1，是百度的首款深度思考模型，具备更强的理解、规划、反思、进化能力，其核心能力如下：

1）具备更强的逻辑推理和复杂问题解决能力。
2）能够自主调用工具，如高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页读取、TreeMind树图等。
3）RAG能力优秀，能够快速全面地分析实时热点事件，有效降低幻觉。
4）中文能力突出，在中文知识问答、文学创作、公文写作方面表现出色。

上手实测

下面，我们就来实测感受下，百度的这2款新模型到底怎么样。

1）文心4.5实测

这是来自「数学吧」的一张梗图，你知道什么意思吗？

“可倒一定连续”，“连续不一定可倒”，这都什么鬼……我们问问文心4.5。

提问：这张图⽚描述了⼀个什么道理？解释出来。

文心4.5答：这张图片通过共享单车倒下的场景，传达了一个数学和逻辑上的道理。图片中的文字“连续不一定可倒，可倒一定连续”是对这一道理的幽默表达。

从数学的角度来看，“连续”通常指的是函数在某一点或某一区间上的连续性，即函数值在该点或区间内没有突变或跳跃。而“可倒”在这里可以理解为函数在某一点上的可导性，即函数在该点存在导数。

图片中的道理可以解释为:

“连续不一定可倒”：一个函数在某一点上连续，并不意味着它在该点上一定可导。例如，绝对值函数在x=0处连续，但不可导。

“可倒一定连续”：如果一个函数在某一点上可导，那么它在该点上一定连续。这是可导性的一个基本性质,通过共享单车的形象比喻，这张图片以一种直观目有趣的方式展示了数学中的这一逻辑关系。

是我孤陋寡闻了！没想到一张随手拍的共享单车图，竟然蕴含着这么高深的数学原理。

再比如这张，你能解释它是什么意思吗？

而文心4.5知道：节拍器上的指针代表了父母对我们认知的“摇摆不定”，有时候觉得我们长大了，应该很懂事；有时候又觉得我们还小，什么都不懂。这种矛盾的心理，正是很多父母在子女成长过程中的真实写照。

上点难度，无字图片呢？看看文心4.5能不能读懂。

这是我很喜欢的一部科幻电影里的截图，考考文心4.5。

文心4.5答，这张图来自电影《楚门的世界》（The Truman Show），回答正确。不得不说，百度的索引数据+多模态模型，真的太强了。

继续加难度，丢一张横向桑基图给它。

问：根据整张图，分析12星座有哪些兴趣爱好是相同的？

没想到，文心4.5也能答得上来，完整找出了各个星座的共同爱好。

既然是多模态，那就不局限于图片。音视频方面呢，文心4.5行不行？

比如，这是《甄嬛传》中的一个视频片段，让它找出来自哪集。

文心4.5准确溯源，来自第62集-63集的剧情，祺贵人受皇后指使，在众人面前诬陷甄嬛与温太医有私情。

更让我意外的是，文心4.5也能像Gemini一样生成连续性、多场景的图片。

比如，假设小米下一辆要造皮卡车，它会怎么造？让文心4.5帮我们画出来。

总的来看，文心4.5的多模态确实有点东西，确认是原生多模态，而非拼接多个单模态模型。

2）文心X1测评

接着，继续测百度今天发布的核心模型——文心X1。

既然是推理模型，就必须问它一道经典的电车难题：

疯⼦把五个无辜的人绑在电⻋轨道上。⼀辆失控的电⻋朝他们驶来，并且片刻后就要碾压到他们。但你可以拉⼀个拉杆，让电车开到另⼀条轨道上。然而问题在于，那个疯子在另⼀个电车轨道上也绑了⼀个⼈。⾯对这种情况，你是否会拉拉杆呢？

这个问题，难倒了不少AI和人类。我们先看看文心X1的思考过程。

确认，这是在真思考，而非表演思考。

X1答：没有标准答案，取决于你接受的伦理体系。哲学家边沁支持拉杆，康德则反对。实际上到底拉不拉，需要综合情景变量（如时间压力、身份关系、风险概率）来动态决策，但无论怎么做，决策者的道德责任不可推卸。

X1还说，电车难题的价值不在于「正确答案」，而在于暴露道德体系的底层矛盾，推动正义、责任、牺牲的深层思考。

这个问题的终极意义在于：当我们用数字衡量生命时，可能已经失去了最宝贵的人性。

卧槽，你说得真有道理啊。

试试嘴臭功力呢，看看能不能与DeepSeek媲美。

输入：以互联网杠精的语⽓锐评“国内各⼤菜系”，要求尽可能阴阳怪气，攻击性拉满。

X1先进行了一轮思考，找出八大菜系的分类及其特点。

然后生成各菜系的锐评，确实够阴阳怪气的。

我摘几段文字，大家感受下。

“川菜：哎呦喂，川菜啊，麻辣鲜香，一吃就停不下来，是不是恨不得把辣椒当饭吃啊?那么重油重辣，也不怕上火长痘，到时候满脸痘痘可别怪我没提醒你。

粤菜：粤菜，清淡鲜美，讲究原汁原味，是不是觉得吃不出味道就是高雅啊？那么寡淡无味，吃着吃着就睡着了，还以为自己在吃什么仙丹呢，结果就是个催眠神器！

湘菜：湘菜嘛，香辣开胃，下饭神器，是不是觉得辣味就能掩盖一切缺点啊？那么辣得不分青红皂白，把味蕾都辣麻木了，还以为自己在吃什么灵丹妙药呢，结果就是个自虐狂。”

官方介绍，与文心4.5一样，文心X1也支持多模态理解能力。

比如这张抽象的艺术品，你知道是什么意思吗？

X1知道。

它认为：这件作品的价值不在于”看懂”，而在于激发思考。它像一面镜子：乐观者看到保护(胶带防止香蕉腐坏)，悲观者看到禁锢，中立者看到存在本身的矛盾性。这种开放性的解读空间，正是当代艺术最动人的魅力所在。

这……确实够抽象的，我段位不够，属实理解不了。

在测试X1中，下面这个Case最让我感到震撼。

前面，我们不是说过文心X1可以调用工具嘛，那有没有可能让它来润色一部小说，然后再将修改后的小说以doc文档交付？

我们先来看下X1的思考过程，它累计调用了3次工具：文档问答工具、代码解释器工具。

然后，经过1分多钟的改稿，最后直接交付了doc文档。

这……也太强了吧？

这是X1的全部工作过程，大家可以自己感知下。

据我了解，这似乎是目前业内首个支持自主调用工具的深度思考模型。

推理模型+联网功能+工具调用能力，文心X1属实有点惊艳到我了。

写在最后

犹记得，两年前的3月16日，百度发布了文心一言，带来了中国的第一款AI ChatBots。

两年后的今天，百度两连发，带着全新的基础模型（文心4.5）和推理模型（文心X1）而来。

而且，还提前全面免费（不用等到4月1日）。

特别是文心X1，这并不在计划内。

后面，文心一言还将开源（6月30日），并于今年下半年推出文心大模型5.0。

此前种种谣言、片语，自此不攻自破。

2025年，对于百度来说，一定是大开大合的一年，也是放手去干的一年。

我对百度，依然有信心。

（文：沃垠AI）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

发表评论取消回复