Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

吴思泽博士生提出Harmon模型,通过统一多模态表征促进图像理解和生成。其框架包括共享MAR编码器和三阶段训练策略,在理解与生成任务中均取得显著效果,并优于现有统一模型。

多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化

阶跃星辰表示将继续坚持基础大模型研发,并强调多模态理解生成一体化的重要性。公司已发布22款基座模型,其中16款为多模态模型。姜大昕解释称,多模态理解生成一体化意味着用一个模型同时完成理解和生成任务,而非三段式过程。他认为这需要更强的综合实力,目前在语言和视觉领域的理解生成一体化研究进展正积极推进。

机器人开始抢“主持人”饭碗!上海张江,傅利叶宣布下个十年规划,要做“以人为本的具身智能”

上海张江的傅利叶机器人宣布未来十年将聚焦康养场景,推出具备温度交互、生动理解与主动执行能力的人形机器人,并发布小尺寸人形机器人Fourier N1。公司已进驻全球3000多家终端医院,提供包括康复治疗和人体运动量化研究在内的多种服务。

9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来

OpenAI 研究科学家 Dan Roberts 在 AI Ascent 上介绍了强化学习和预训练的进步,预测未来 AI 模型将在测试时间扩展方面发挥更大作用,并希望模型能在科学前沿做出重大贡献。他强调需要大规模扩展计算和科学,目标是在 2034 年使 AI 能够进行长达 8 小时的计算与思考。

AI视频神器!腾讯混元HunyuanCustom,角色一致性大突破!

腾讯混元团队发布的HunyuanCustom新工具解决了AI生成视频中角色一致性问题,实现了图像提供身份、文本定义一切的效果。它支持单主角和多主角生成,以及视频局部编辑和音频驱动生成等模式。