月度归档: 2025 年 4 月
动态场景,开放文本查询!清华哈佛联合建模4D语言场 CVPR 2025
清华大学等团队提出4D LangSplat方法,结合多模态大模型和状态变化网络,成功重建动态语义场并实现高效精准的开放文本查询任务。该方法在多项评估指标上优于现有技术。
从CoT到MCoT!NUS、港中文等发布「多模态思维链」重磅综述,280篇文献深度解析
这篇综述全面梳理了MCoT的理论框架、技术方法及应用前景,为多模态AI研究提供了系统性参考。从传统的链式思维到MCoT,支持多模态数据的自由组合与协同推理,在医学诊断等领域展现出巨大潜力。
ICLR 2025 高效又稳定!人大团队提出模型剪枝新方法LLM-Streamline
模型剪枝方法LLM-Streamline通过判断层的重要性,并进行剪枝来减少模型参数量,同时使用余弦相似度和轻量级蒸馏小模型来弥补损失。该方法具有低内存消耗、合理训练方法以及新的稳定性指标等优势,相比已有方法性能更高。
2024 AAAS Fellow名单出炉:华人学者刘威入选
三位华人学者入选2024年AAAS Fellow名单,包括腾讯杰出科学家刘威、纽约城市学院教授田英利和埃默里大学教授熊莉。他们分别在计算机视觉、机器学习及数据隐私等领域做出突出贡献。
Hugging Face创始人推出免费的“网页版Cursor”
Hugging Face创始人Thomas Wolf发布了新工具DeepSite,用户只需描述需求就能快速生成网页和游戏。该工具使用最新的DeepSeek V3模型,界面直观易用,完全免费。
R1–Zero强化学习路线新发现及R1思路用于GUI Agent动作预测方案
2025年4月1日,北京天气晴。文章介绍了R1进展中的两个工作,一是研究多种基础模型预训练特性的影响;二是将GRPO-RL强化用于Agent的UI动作预测,数据和奖励函数设计有趣。研究发现Qwen2.5模型在不使用模板的情况下有强大的推理能力,但模板会破坏数学解题能力。此外,文章还讨论了强化学习在图形用户界面(GUI)动作预测中的应用。