实测百度文心大模型X1.vs.阿里Qwen2.5，文心大模型4.5.vs.Gemini 2.0

作者｜子川

来源｜AI先锋官

昨日，许久不见的文心迎来了重磅更新，正式发布文心大模型4.5和文心大模型X1，比之前官宣的4月1日全面免费提前了半个月。

文心大模型4.5：百度新一代原生多模态基础大模型，能对文字、图片、音频、视频等内容进行综合理解。

文心大模型X1：首个自主运用工具的深度思考模型，具备更强的理解、规划、反思、进化能力，同样也支持多模态。

从官方放出的成绩单来看，文心4.5这款模型实力不容小觑。

文心 4.5 在多模态能力几乎全面超越GPT-4o，GPT-4o 仅在 MMMU 上的表现更好。

在文本测试基准上，文心 4.5 在 C-Eval、CMMLU、CMath 和 CLUEWSC 等基准上的成绩要优于DeepSeek-V3、GPT-4o、GPT-4.5等模型，同时它的平均分也同样高于其他三款模型。

不过，此次测评并没有放出文心X1的成绩。

重点来了！它的价格会是多少？

当看到这两款模型的价格的那一刻，终于明白了广为流传的一句话“没有最卷，只有更卷”。

文心4.5输入价格低至0.004元/千tokens，输出价格低至0.016元/千tokens。

文心X1输入价格低至0.002元/千tokens，输出价格低至0.008元/千tokens。

这个价格是什么概念，文心4.5的价格约为GPT4.5的1%。

同时文心X1的价格是DeepSeek R1的一半。

看到这价格，只能说一句——

那效果到底如何，我们来实测一下。

文心4.5号称能对文字、图片、音频、视频等内容进行综合理解，下面来看一下它的回答到底靠不靠谱。

下面我们用最近爆火的Gemini 2.0 Flash Experimental和文心4.5做一下对比。

图片理解：

先来一个降档的看图猜成语，效果似乎不错，文心4.5回答正确，成功猜出成语“呆若木鸡”，但Gemini 2.0 Flash Experimental的答案就有点离谱了——“击飞蛋打”

文心4.5

Gemini 2.0 Flash Experimental

再来一个，看看这次Gemini能否把握住。

好家伙，这次都没有回答正确。

文心4.5

Gemini 2.0 Flash Experimental

再来看一看它们是否能理解梗图。

文心4.5

Gemini 2.0 Flash Experimental

这两款模型对于梗图的理解还是相当到位的。

音频理解：

来一个简单的，刚刚录了一段背诵木兰辞的的音频，看它们是否能将音频中的所有文字都提取出来。

回答正确！并成功识别出这是木兰辞。

文心4.5

Gemini 2.0 Flash Experimental

上上难度，听歌识曲。

文心4.5

Gemini 2.0 Flash Experimental

这次轮到文心4.5翻车了，没有识别出来，相反，Gemini 2.0 Flash Experimental匹对成功。

视频理解：

最近在看“阴阳裁缝”，对里面的做法事颇感兴趣，看看文心4.5能否理解视频中人物的动作行为。

文心4.5

Gemini 2.0 Flash Experimental

好家伙，文心4.5再次翻车，视频短短19秒的画面，并没有出现双手合十的画面，而且台词提取的也不全，仅仅提取开头的那一部分。

而Gemini 2.0 Flash Experimental这款模型就能完美的理解视频中的人物动作，并把所有的台词都提取出来。

下面我们再来看一下文心X1的表现。

值得关注的是，文心大模型X1能“自主运用工具”，已支持高级搜索、文档问答、图片理解、AI绘图、代码解释器、网页链接读取、TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等多款工具。

比如给它一张佛跳墙的图片，让它输出佛跳墙的正确做法并转换成PDF文件。

文心X1首先会调用图片理解工具，然后再调用代码解释器功能，将做法转换成PDF，玩起来非常有意思。

据介绍，文心X1是推理模型，老规矩，接下来，实测一下，看一下文心X1的推理能力到底有多强。

下面就用文心X1和DeepSeek R1、Qwen2.5-Plus打个PK。

测试题一：经典难题

最近在测试时，还会发现部分模型面对9.11和9.8谁大？Strawberry有几个字母r等问题出现错误，看看它们三是否能回答正确。

文心X1

DeepSeek R1

Qwen2.5-Plus

不出所料，全部回答正确，上上难度，来一道较难的推理题。

测试题二：推理日期

提示词：如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天可能是周几？

文心X1

DeepSeek R1

Qwen2.5-Plus

这道推理题仅Qwen2.5-Plus少推理出一个答案，其他两款模型文心 X1和DeepSeek R1都回答正确。

测试题三：猜猜老师的生日

老师告诉学生自己的生日是以下日期之一：3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日。老师只告诉了A月份，告诉了B日期。A说：“我不知道老师的生日，但B肯定也不知道。” B说：“我本来也不知道，但现在我知道了。” A说：“那我也知道了。” 请问老师的生日是哪一天？

文心X1

DeepSeek R1

Qwen2.5-Plus

仔细去看了这道题的推理过程，非常烧脑，想不到最后它们都回答正确了，有点东西~

既然这样，那就只能智取了，来一道挖坑的题。

测试题四：一根8米长的竹竿是否能通过一个4米高、2米宽的门？

文心X1

DeepSeek R1

Qwen2.5-Plus

终于是坑到DeepSeek R1和Qwen2.5-Plus这两款模型了，它们的回答是一根8米长的竹竿不能通过一个4米高、2米宽的门，反观文心 X1回答正确，它理解可以侧着过去。

测试题五：拿多少个乒乓球

排列着100个乒乓球，由两个人轮流拿球，每次至少拿1个，最多拿5个，拿到第100个乒乓球的人获胜。如果你是先拿的人，第一次该拿几个？

文心X1

DeepSeek R1

Qwen2.5-Plus

再一次全部回答正确，太厉害了！！！

后续小编又测试了10多道推理题，三款模型均准确作答，难分伯仲！

注意，并没有开联网功能，而是它们用自身的推理能力回答出来的。

看来该更新测试题库了…..,模型的迭代速度太快了。

目前，这两款模型已在文心一言官网、百度搜索、文小言 APP 等产品上线，重点是免费，大家感兴趣的可以去体验一下。

插播一条预告，百度将在6月30日正式开源文心大模型，并预计在下半年发布文心大模型5.0，大家可以期待一下~

（文：AI先锋官）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复