来自现场:豆包发布视觉理解模型,价格低到离谱


此刻,正在上海
火山引擎2024冬季FORCE原动力大会

Force(原力),出自《星球大战》
给大家发布这篇文章

发布会要点

今天上午,是大会的主题演讲,分别由火山引擎总裁和各产品负责人做介绍。


豆包大模型家族,今天起全线升级:

1)发布豆包视觉理解模型

不仅能精准识别视觉内容,还具备理解和推理能力,可以进行复杂计算,比如图表分析、代码处理、专业问题解答等。现在起,已接入豆包APP和PC。


最牛的是,它的千tokens输入只要0.003,一块钱可以处理284张720P的图片,比GPT-4o、Claude 3.5 sonnet、Qwen要便宜80%多。

2)豆包通用模型Pro升级

豆包通用Pro模型,在综合能力、推理、指令遵循、代码、数学、专业知识等方面,相对上一代全面升级。


3)音乐模型升级

音乐模型从生成60s的简单结构,升级到3分钟的完整作品。


4)文生图升级

文生图模型升级,一键P图、一键海报。


5)发布全新模型

现场,发布了2款全新模型:veOmniverse物理世界模型+豆包3D生成模型。

6)扣子升级到1.5

发布会称,常活跃开发者用户100万,累计开发智能体有200万+。

7)预告视频模型


预计春节左右,将推出具备更长视频生成能力的豆包视频模型1.5。端到端的实时语音模型,也将很快上线。

另外,发布会还重点强调了即梦AI


剪映负责人张楠将即梦比喻为“想象力的相机”,希望即梦成为一种新的“创造和体验”方式,in your eyes,be your eyes。


现场还提到,即梦将在2.1图片模型的基础上继续迭代,上线文字局部重绘、动态海报等功能。

会场一览

整个展厅,非常AI
字节在上海世博园包下了2000m²

打造一个沉浸式AI展区


1)豆包大模型展区

语言、语音、视觉模型,豆包家族齐亮相
豆包音乐,现场感受live show
豆包视频,一键拍大片


2)AI驱动应用展区
豆包语音模型,现场真·上墙点赞

Ola Friend耳机,是现场大家体验最多的展区


豆包TTS,复刻音色,与未来的自己对话


HiAgent,轻松创建企业智能体

3)AI行业融合展区

汽车、金融、大消费、互联网、教育……
各行各业的大模型落地方案

沉浸式感受AI重构我们的生活


4)当然,还有最令我期待的扣子展区
这一年里,开发者对扣子的热爱不用我多讲
这是目前最好的AI应用开发平台,没有之一

11月扣子月活175万,比某些知名AI的数据还高


5)现场福利

现场有7个展区设置了打卡点
点亮所有地图,有机会获得这个会发声的AI玩偶
真的好可爱,收藏+1

写在最后


写到这里时

发布会结束了,展区也逛完了

总体给我感受是:

字节正在开启一场AI马拉松

探索一个让所有人、所有行业都能够使用AI的机会

这和我即将要去的浦东机场很相似

它也被称为浦东马拉松


(文:沃垠AI)

欢迎分享

发表评论