
来了!文心大模型4.5今日如期上线。同时,百度还意外的带来了自家的深度思考模型文心X1。

文心大模型4.5是百度的新一代原生多模态基础大模型,多模态理解能力优秀,理解、生成、逻辑、记忆能力全面提升,多项基准测试成绩优于GPT4.5、DeepSeek-V3,API价格仅GPT4.5的1%。

多模态能力

文本能力
文心大模型X1是首个自主运用工具的深度思考模型,具备更强的理解、规划、反思、进化能力,效果对标DeepSeek R1,API价格仅R1一半。

目前,2款模型已在文心一言官网上线,所有用户可免费使用(不用等到4月1日)。
体验地址:https://yiyan.baidu.com

文心4.5和X1有何亮点?
文心4.5,是百度的新一代原生多模态基础大模型。一家公司模型能力强不强,其基础模型至关重要。

据介绍,文心4.5重点提升能力有:
-
1)原生多模态。通过多个模态联合建模实现协同优化,能够在输入和输出端同时支持多种模态,具备出色的多模态理解和跨模态迁移能力。
-
2)更精进的语言能力,理解、生成、逻辑、记忆能力全面提升。
-
3)去幻觉、逻辑推理、代码能力显著提升。
文心X1,是百度的首款深度思考模型,具备更强的理解、规划、反思、进化能力,其核心能力如下:

-
1)具备更强的逻辑推理和复杂问题解决能力。
-
2)能够自主调用工具,如高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页读取、TreeMind树图等。
-
3)RAG能力优秀,能够快速全面地分析实时热点事件,有效降低幻觉。
-
4)中文能力突出,在中文知识问答、文学创作、公文写作方面表现出色。

上手实测
下面,我们就来实测感受下,百度的这2款新模型到底怎么样。
1)文心4.5实测
这是来自「数学吧」的一张梗图,你知道什么意思吗?

“可倒一定连续”,“连续不一定可倒”,这都什么鬼……我们问问文心4.5。
提问:这张图⽚描述了⼀个什么道理?解释出来。

文心4.5答:这张图片通过共享单车倒下的场景,传达了一个数学和逻辑上的道理。图片中的文字“连续不一定可倒,可倒一定连续”是对这一道理的幽默表达。
从数学的角度来看,“连续”通常指的是函数在某一点或某一区间上的连续性,即函数值在该点或区间内没有突变或跳跃。而“可倒”在这里可以理解为函数在某一点上的可导性,即函数在该点存在导数。
图片中的道理可以解释为:
“连续不一定可倒”:一个函数在某一点上连续,并不意味着它在该点上一定可导。例如,绝对值函数在x=0处连续,但不可导。
“可倒一定连续”:如果一个函数在某一点上可导,那么它在该点上一定连续。这是可导性的一个基本性质,通过共享单车的形象比喻,这张图片以一种直观目有趣的方式展示了数学中的这一逻辑关系。
是我孤陋寡闻了!没想到一张随手拍的共享单车图,竟然蕴含着这么高深的数学原理。
再比如这张,你能解释它是什么意思吗?

而文心4.5知道:节拍器上的指针代表了父母对我们认知的“摇摆不定”,有时候觉得我们长大了,应该很懂事;有时候又觉得我们还小,什么都不懂。这种矛盾的心理,正是很多父母在子女成长过程中的真实写照。

上点难度,无字图片呢?看看文心4.5能不能读懂。
这是我很喜欢的一部科幻电影里的截图,考考文心4.5。

文心4.5答,这张图来自电影《楚门的世界》(The Truman Show),回答正确。不得不说,百度的索引数据+多模态模型,真的太强了。

继续加难度,丢一张横向桑基图给它。

问:根据整张图,分析12星座有哪些兴趣爱好是相同的?
没想到,文心4.5也能答得上来,完整找出了各个星座的共同爱好。

既然是多模态,那就不局限于图片。音视频方面呢,文心4.5行不行?
比如,这是《甄嬛传》中的一个视频片段,让它找出来自哪集。
文心4.5准确溯源,来自第62集-63集的剧情,祺贵人受皇后指使,在众人面前诬陷甄嬛与温太医有私情。
更让我意外的是,文心4.5也能像Gemini一样生成连续性、多场景的图片。
比如,假设小米下一辆要造皮卡车,它会怎么造?让文心4.5帮我们画出来。

总的来看,文心4.5的多模态确实有点东西,确认是原生多模态,而非拼接多个单模态模型。
2)文心X1测评
接着,继续测百度今天发布的核心模型——文心X1。
既然是推理模型,就必须问它一道经典的电车难题:
疯⼦把五个无辜的人绑在电⻋轨道上。⼀辆失控的电⻋朝他们驶来,并且片刻后就要碾压到他们。但你可以拉⼀个拉杆,让电车开到另⼀条轨道上。然而问题在于,那个疯子在另⼀个电车轨道上也绑了⼀个⼈。⾯对这种情况,你是否会拉拉杆呢?
这个问题,难倒了不少AI和人类。我们先看看文心X1的思考过程。

确认,这是在真思考,而非表演思考。
X1答:没有标准答案,取决于你接受的伦理体系。哲学家边沁支持拉杆,康德则反对。实际上到底拉不拉,需要综合情景变量(如时间压力、身份关系、风险概率)来动态决策,但无论怎么做,决策者的道德责任不可推卸。
X1还说,电车难题的价值不在于「正确答案」,而在于暴露道德体系的底层矛盾,推动正义、责任、牺牲的深层思考。
这个问题的终极意义在于:当我们用数字衡量生命时,可能已经失去了最宝贵的人性。
卧槽,你说得真有道理啊。
试试嘴臭功力呢,看看能不能与DeepSeek媲美。
输入:以互联网杠精的语⽓锐评“国内各⼤菜系”,要求尽可能阴阳怪气,攻击性拉满。
X1先进行了一轮思考,找出八大菜系的分类及其特点。

然后生成各菜系的锐评,确实够阴阳怪气的。

我摘几段文字,大家感受下。
“川菜:哎呦喂,川菜啊,麻辣鲜香,一吃就停不下来,是不是恨不得把辣椒当饭吃啊?那么重油重辣,也不怕上火长痘,到时候满脸痘痘可别怪我没提醒你。
粤菜:粤菜,清淡鲜美,讲究原汁原味,是不是觉得吃不出味道就是高雅啊?那么寡淡无味,吃着吃着就睡着了,还以为自己在吃什么仙丹呢,结果就是个催眠神器!
湘菜:湘菜嘛,香辣开胃,下饭神器,是不是觉得辣味就能掩盖一切缺点啊?那么辣得不分青红皂白,把味蕾都辣麻木了,还以为自己在吃什么灵丹妙药呢,结果就是个自虐狂。”
官方介绍,与文心4.5一样,文心X1也支持多模态理解能力。
比如这张抽象的艺术品,你知道是什么意思吗?

X1知道。

它认为:这件作品的价值不在于”看懂”,而在于激发思考。它像一面镜子:乐观者看到保护(胶带防止香蕉腐坏),悲观者看到禁锢,中立者看到存在本身的矛盾性。这种开放性的解读空间,正是当代艺术最动人的魅力所在。
这……确实够抽象的,我段位不够,属实理解不了。
在测试X1中,下面这个Case最让我感到震撼。
前面,我们不是说过文心X1可以调用工具嘛,那有没有可能让它来润色一部小说,然后再将修改后的小说以doc文档交付?

我们先来看下X1的思考过程,它累计调用了3次工具:文档问答工具、代码解释器工具。

然后,经过1分多钟的改稿,最后直接交付了doc文档。

这……也太强了吧?
这是X1的全部工作过程,大家可以自己感知下。
据我了解,这似乎是目前业内首个支持自主调用工具的深度思考模型。
推理模型+联网功能+工具调用能力,文心X1属实有点惊艳到我了。

写在最后
犹记得,两年前的3月16日,百度发布了文心一言,带来了中国的第一款AI ChatBots。
两年后的今天,百度两连发,带着全新的基础模型(文心4.5)和推理模型(文心X1)而来。
而且,还提前全面免费(不用等到4月1日)。
特别是文心X1,这并不在计划内。

后面,文心一言还将开源(6月30日),并于今年下半年推出文心大模型5.0。
此前种种谣言、片语,自此不攻自破。
2025年,对于百度来说,一定是大开大合的一年,也是放手去干的一年。
我对百度,依然有信心。
(文:沃垠AI)