自回归+扩散!Salesforce开源统一多模态模型BLIP3-o,图像理解与生成全拿下
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
智元机器人旗下灵犀X2自即日起开启合作伙伴招募,价格10万-40万元。灵犀X2在交互和运动控制等方面不断迭代升级,旨在创造健康的人形机器人商业化环境。
论文提出MMaDA,首个系统性探索扩散架构的多模态基础模型,实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色,并通过混合长链思维微调和统一策略梯度优化提升性能。
时空智能科技公司千寻位置创始人陈金培表示,AI技术让设备智能化取得巨大突破,并指出时空智能的发展速度已经超过任何时期。他表示机器人需要AI作为‘大脑’和时空智能作为‘小脑’来感知和行动。未来中国机器人产业将迎来淘汰赛,千寻位置希望能为各种机器人提供符合场景需求的服务。
美国对中国生物科技产业展开关税贸易和出口管制措施引发AI生物企业的恐慌和反弹。英矽智能CEO表示贸易战影响了生物技术领域,中国创新正在爆发,并强调保持全球布局和技术突破的重要性。
该工作由字节跳动 ByteBrain 团队 × 清华大学合作完成。提出了 ChatTS,一种原生支持多变量时序问答与推理的多模态 LLM,并入选数据库顶级会议 VLDB 2025。
法国 AI 初创公司 Mistral 发布了开源语言模型 Devstral,参数规模为 240 亿,支持在低配置设备上运行,并在软件工程任务中表现优异。