实测豆包全家桶，推理、视觉、语音能力大增，唱歌居然跑调

作者｜子川

来源｜AI先锋官

临近春节，各大模型厂商可谓是加班加点疯狂开卷！

这不，豆包也开始交出它们的年度报告——豆包大模型 1.5 Pro 版本。

而且还是一个全家桶，具体模型如下：

基础模型Doubao-1.5-pro （又包括 32k 和 256k 上下文长度）
视觉模型 Doubao-1.5-vision-pro
实时语音模型 Doubao-1.5-realtime-voice-pro

据官方介绍，豆包 1.5 Pro 综合实力非常劲爆，不仅推理实力大增，而且在视觉、语音方面表现极度亮眼。

实力如何，还得通过实测才能得知，毕竟官方的嘴，骗人的鬼。

老规矩，开测！！！

推理能力

大家都知道，现实世界中的问题往往复杂多变，往往需要进行非常多步骤的逻辑推理和分析才能得出正确答案。

所以，推理能力对大模型解决这些现实问题至关重要。

那先来一道简单推理题来练练手。

如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天可能是周几？

ChatGPT o1

Doubao 1.5 pro

DeepSeek-R1

好家伙，就o1回答错误，漏掉一个，Doubao 1.5 pro和DeepSeek-R1俩都回答正确。

难道o1要翻车了？？？

前面的推理题只是小试牛刀，现在我们来试一下下面这道非常无厘头且又难的推理题。

上个礼拜我家很冷，因为我家的空调坏了，我找了一个人的来修。他修好了，我付了钱。那么这个人：是会计的可能性高?还是既是会计又是维修工的可能性高？

ChatGPT o1

Doubao 1.5 pro

DeepSeek-R1

o1和Doubao 1.5 pro答对，DeepSeek-R1推理错误，看来此次豆包更新的模型有点东西。

再来一道充满陷阱的推理题，看哪家模型会掉进陷阱中。

大家可以先不看答案，自己推理一下，最后会发现很容易中招（反正小编是中招了）。

沙漠里一个卖水的商人有25公升的水，这时有一个想买19公升的人，还有一个想买12公升的人。水不够卖给2人，只能选一个人卖掉，卖水商只想赶快回家，而从皮囊中倒出1公升水需要10秒，他应卖给谁？

ChatGPT o1

Doubao 1.5 pro

DeepSeek-R1

只有o1模型顺利过关，Doubao 1.5 pro和DeepSeek-R1俩都回答错误。

还得是o1，不愧是推理界的扛把子，

这几道题推理题测试下来，不得不承认，Doubao 1.5 pro的推理能力提升确实提升了不少，虽然目前还比不上o1，但对比国产模型的推理能力，它的表现还是比较亮眼。

接下来，再来看一下视觉模型Doubao-1.5-vision-pro表现如何。

视觉理解能力

梗图

大家还记得小米su7的发布会时，各位友商的表情吗，把这张扔给Doubao-1.5-vision-pro，看它能不能理这些出圈的图片。

从图片的解读来看，Doubao-1.5-vision-pro理解了图片上的全部消息，但是好像并没有理解笑点在哪？

再来一个。

这个理解的就蛮到位，再来看一下2024流行的谐音梗是否也能理解。

好家伙，连谐音梗都能看得懂了，有点意思了。

看图猜成语

看图猜成语，很多视觉大模型都翻车了，因为不仅考验其图片的理解能力，一定程度上还非常考验其推理能力。

三张图，从简单到困难，全部都猜测准确。

字体识别

字体识别领域一直是视觉模型的另外一条比拼的赛场，同样，我们来测试一下Doubao-1.5-vision-pro的表现如何。

翻车了，并没有识别出来，这两道题都是kimi视觉版能进行识别的图片。

通过实测发现，Doubao-1.5-vision-pro在理解图片方面表现十分出色，能够轻松识别网络梗图和看图猜成语，但对模糊字体的识别能力似乎还不够。

实时语音能力

实测语音通话能力，那必不可少的就是声音的真实度，实测下来，豆包在小编这里是过关的。

不信？大家一起来听一听它模仿御姐音、萝莉音、夹子音、女王音的表现如何。

是不是非常好听，重点是AI感不重。

不过，实测发现Doubao-1.5-realtime-voice-pro有一个非常让人匪夷所思的点，它居然唱歌跑调。

豆包这次大模型全家桶升级，实测后，确实抗打。无论是文本，还是视觉、语音模态，都能明显感觉提升了不少，简直是六边形战士。

目前基础模型Doubao-1.5-pro 已经在陆续灰度中了，如果大家先立马体验，可以到火山引擎体验。

链接：

https://www.volcengine.com/product/doubao

视觉模型 Doubao-1.5-vision-pro和实时语音模型 Doubao-1.5-realtime-voice-pro已经上线豆包了，大家感兴趣的可以去体验一下。

（文：AI先锋官）

欢迎分享

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

推理能力

视觉理解能力

翻车了，并没有识别出来，这两道题都是kimi视觉版能进行识别的图片。

通过实测发现，Doubao-1.5-vision-pro在理解图片方面表现十分出色，能够轻松识别网络梗图和看图猜成语，但对模糊字体的识别能力似乎还不够。

实时语音能力

发表评论 取消回复

发表评论取消回复