作者|子川
来源|AI先锋官
这不,豆包也开始交出它们的年度报告——豆包大模型 1.5 Pro 版本。
据官方介绍,豆包 1.5 Pro 综合实力非常劲爆,不仅推理实力大增,而且在视觉、语音方面表现极度亮眼。
实力如何,还得通过实测才能得知,毕竟官方的嘴,骗人的鬼。
推理能力
大家都知道,现实世界中的问题往往复杂多变,往往需要进行非常多步骤的逻辑推理和分析才能得出正确答案。
所以,推理能力对大模型解决这些现实问题至关重要。
如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?
好家伙,就o1回答错误,漏掉一个,Doubao 1.5 pro和DeepSeek-R1俩都回答正确。
前面的推理题只是小试牛刀,现在我们来试一下下面这道非常无厘头且又难的推理题。
上个礼拜我家很冷,因为我家的空调坏了,我找了一个人的来修。他修好了,我付了钱。那么这个人:是会计的可能性高?还是既是会计又是维修工的可能性高?
o1和Doubao 1.5 pro答对,DeepSeek-R1推理错误,看来此次豆包更新的模型有点东西。
再来一道充满陷阱的推理题,看哪家模型会掉进陷阱中。
大家可以先不看答案,自己推理一下,最后会发现很容易中招(反正小编是中招了)。
沙漠里一个卖水的商人有25公升的水,这时有一个想买19公升的人,还有一个想买12公升的人。水不够卖给2人,只能选一个人卖掉,卖水商只想赶快回家,而从皮囊中倒出1公升水需要10秒,他应卖给谁?
只有o1模型顺利过关,Doubao 1.5 pro和DeepSeek-R1俩都回答错误。
这几道题推理题测试下来,不得不承认,Doubao 1.5 pro的推理能力提升确实提升了不少,虽然目前还比不上o1,但对比国产模型的推理能力,它的表现还是比较亮眼。
接下来,再来看一下视觉模型Doubao-1.5-vision-pro表现如何。
视觉理解能力
大家还记得小米su7的发布会时,各位友商的表情吗,把这张扔给Doubao-1.5-vision-pro,看它能不能理这些出圈的图片。
从图片的解读来看,Doubao-1.5-vision-pro理解了图片上的全部消息,但是好像并没有理解笑点在哪?
再来一个。
这个理解的就蛮到位,再来看一下2024流行的谐音梗是否也能理解。
好家伙,连谐音梗都能看得懂了,有点意思了。
看图猜成语,很多视觉大模型都翻车了,因为不仅考验其图片的理解能力,一定程度上还非常考验其推理能力。
字体识别领域一直是视觉模型的另外一条比拼的赛场,同样,我们来测试一下Doubao-1.5-vision-pro的表现如何。
翻车了,并没有识别出来,这两道题都是kimi视觉版能进行识别的图片。
通过实测发现,Doubao-1.5-vision-pro在理解图片方面表现十分出色,能够轻松识别网络梗图和看图猜成语,但对模糊字体的识别能力似乎还不够。
实时语音能力
实测语音通话能力,那必不可少的就是声音的真实度,实测下来,豆包在小编这里是过关的。
不信?大家一起来听一听它模仿御姐音、萝莉音、夹子音、女王音的表现如何。
是不是非常好听,重点是AI感不重。
不过,实测发现Doubao-1.5-realtime-voice-pro有一个非常让人匪夷所思的点,它居然唱歌跑调。
豆包这次大模型全家桶升级,实测后,确实抗打。无论是文本,还是视觉、语音模态,都能明显感觉提升了不少,简直是六边形战士。
目前基础模型Doubao-1.5-pro 已经在陆续灰度中了,如果大家先立马体验,可以到火山引擎体验。
https://www.volcengine.com/product/doubao
视觉模型 Doubao-1.5-vision-pro和实时语音模型 Doubao-1.5-realtime-voice-pro已经上线豆包了,大家感兴趣的可以去体验一下。
(文:AI先锋官)