看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一

字节发布轻量级多模态推理模型Seed1.5-VL,在60个主流基准测试中拿下38项第一,仅用532M视觉编码器+200亿活跃参数即能与大型顶尖模型抗衡。该模型通过多层次架构和训练细节实现了高效处理多种多模态数据的能力。

「R1时刻」降临!港中文MMLab定义文生图新范式,彻底告别“无脑画图”

最近的大语言模型在数学和编程等领域展示了强大的推理能力,通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中,提出了两种不同的层次的思维链(CoT):Semantic-CoT负责设计图像的整体结构,而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT,并引入多个视觉专家模型作为奖励模型来评估生成的图片质量,最终提出了一种新的文生图模型T2I-R1,显著提高了模型生成符合人类期望的结果的能力。

ICML 2025 图提示到底“灵”在哪?港中文团队用数学告诉你答案!

近年来,图提示作为一种轻量级迁移学习方法逐渐受到关注。该方法通过对输入图结构进行微调,在不修改模型参数的前提下适配新的任务场景,显著简化了模型部署流程。本文介绍了一项研究,提出从数据操作视角理解图提示的理论框架,并系统地分析和证明其有效性。

组会前夜必看:如何用1小时把论文「吃干抹净」?

文章介绍了在科研学习中使用AI辅助的好处,特别是秘塔AI的新功能“今天学点啥”,它能够根据上传或搜索到的资料生成系统化、结构化的讲解,帮助用户理清知识点。它不仅能提供深度模式和不同风格的教学方式,还能通过练习题来检测学习效果。

特斯拉擎天柱机器人最新进展:“零样本”魔性舞蹈秀翻全场,全靠模拟器苦练?

特斯拉展示了擎天柱机器人通过强化学习在模拟环境中训练并实现‘零样本迁移’的最新成果。这次演示展示了机器人能够在真实世界中成功执行复杂动作,省去了大量调试时间和成本。