羡慕o3?豆包也可以进行图片推理了!
文章介绍了字节跳动发布的新模型豆包1.5和视觉版Doubao-1.5-thinking-pro-vision,并展示了它们在推理位置、根据冰箱内容定制食谱、判断车祸原因以及家居改造建议等方面的出色表现,对比了与OpenAI o3的差异。
文章介绍了字节跳动发布的新模型豆包1.5和视觉版Doubao-1.5-thinking-pro-vision,并展示了它们在推理位置、根据冰箱内容定制食谱、判断车祸原因以及家居改造建议等方面的出色表现,对比了与OpenAI o3的差异。
香港科技大学开发的 AudioX 机器学习模型能够根据用户的个性化输入生成独一无二的音频和音乐作品,包括文本、视频、图像等多模态数据,具有强大的跨模态学习能力,并能处理复杂的音频生成任务如音乐补全、修复等。
Lenny Rachitsky 的 Newsletter 提供订阅者免费一年多款热门 AI 工具,价值超15000美元。此活动包括Cursor、Replit等工具,学生可享受教育优惠价100美元/年。
题组开发了一个专为蛋白质工程量身打造的一站式开放平台 VenusFactory,HyperAI超神经
UCSD研究团队以经典游戏《逆转裁判》为舞台测试AI推理能力,结果显示o1和Gemini 2.5 Pro表现最佳;通过项目开源,更多经典游戏可用来测试AI模型性能。
近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。