国内活跃度最高的AI大模型应用正走向“多元化”。
12月3日消息,钛媒体AGI获悉,字节跳动豆包日前上线了一项实用功能——图片理解。目前,豆包APP及豆包PC新增照片及相机按钮,上传图片后可识别图片内容。
相比普通的OCR识别(光学字符识别)技术,豆包的“图片理解”并非识别文字,而是识别图片信息。比如,问一个景点在哪里,问动漫人物是谁,豆包都能流畅进行回答。
再比如,早前,马斯克创立的人工智能公司xAI宣布为Grok增加了图像理解功能,而马斯克本人也出来官宣了,并称“Grok现在能够理解图像了,甚至还可以解释笑话”。
这是一幅四格漫画,内容是一个关于物理学家和牛顿的笑话。把这个四格漫画发给豆包,也能看到它对这个笑话的解析。
1. 第一格:文字:“HOW DO WE KNOW IF THEY’RE ACTUALLY DEAD OR JUST PRETENDING”(我们怎么知道他们是真的死了还是只是假装?)图像:两个人站在战场上,周围有许多倒地的士兵。
2. 第二格:文字:“PHYSICISTS”(物理学家),图像:两个人开始观察和思考。
3. 第三格:文字:“Discovered”(发现了),图像:两个人似乎有了某种发现,表情变得兴奋。
4. 第四格:文字:“Isaac Newton invented gravity”(艾萨克·牛顿发明了重力),图像:两个人得出结论,表情满意。
笑话解析:这个笑话讽刺了物理学家有时会提出一些看似荒谬但却基于科学理论的解释。漫画中的两个人在战场上看到士兵倒地,他们没有考虑士兵是死是活,而是思考这背后的科学原理。最后,他们得出结论是牛顿发明了重力,暗示士兵是因为重力而倒地。这种思维方式幽默地表现了物理学家对科学原理的执着和有时不切实际的思考方式。
你认为,上述这个解析结果怎么样?符合事实吗?
据Statista数据显示,预计到2030年,全球AI领域规模将超过1.8万亿美元。
(文:钛媒体AGI)