ICML 2025 Entropy不灵了?北大港中文用“区域置信”重新定义模型的不确定性
来自北京大学与香港中文大学的最新研究提出 ReCAP 框架,成功打破熵最小化在 Test-Time Training 的性能瓶颈。论文提出区域置信度代理概念,通过优化区域内模型预测不确定性与稳定性之间的联系来提升下游任务泛化性能。
来自北京大学与香港中文大学的最新研究提出 ReCAP 框架,成功打破熵最小化在 Test-Time Training 的性能瓶颈。论文提出区域置信度代理概念,通过优化区域内模型预测不确定性与稳定性之间的联系来提升下游任务泛化性能。
腾讯联合清华大学深圳国际研究生院等机构推出的多模态大语言模型MindOmni,在视觉理解、文本到图像生成、推理生成等方面表现卓越。它采用三阶段训练策略和强化学习算法优化了模型的推理生成能力,支持内容创作、教育、娱乐等多个领域应用。
港中文 MMLab 提出的新方法 MINT-CoT,通过引入‘视觉交错思维链’实现细粒度视觉与文本推理融合,在多个基准数据集上刷新 SOTA,显著提升多模态大模型在数学视觉任务中的表现。
该研究比较了DPO和GRPO在自回归图像生成中的应用效果,发现DPO在域内任务上表现更好,而GRPO在域外泛化能力上更出色。研究还探讨了不同奖励模型及扩展策略对这两种算法的影响。
香港中文大学、字节跳动Seed和斯坦福大学研究团队提出SeqPO-SiMT框架,实现70亿参数规模下SOTA性能。该方法通过序贯策略优化解决同声传译中的质量-延迟权衡问题,翻译质量媲美Qwen-2.5-7B离线翻译水平。
本文介绍了一篇被ACL 2025主会议接收的语音语言模型综述论文,该文由香港中文大学团队撰写。文章探讨了当前语音大模型的发展及其在自然对话、实时交互等方面的应用前景,并提出了未来研究的重点和挑战。
香港中文大学提出了一种名为RXTX的新算法,通过结合机器学习搜索方法和组合优化技术,显著提升了XXt的计算效率。与原算法相比,RXTX的设计使得递归关系式为R(n)=8R(n/4) + 26M(n/4),比基Strassen的递归分治方法降低了约5%的渐近乘法常数。
香港中文大学等团队提出Flow-GRPO,首个将在线强化学习引入流匹配模型的工作。显著提升图像生成模型在复杂场景理解、文本渲染任务上的性能,将SD3.5 Medium准确率从63%提升至95%,组合式生图能力超越GPT-4。
香港中文大学等机构联合推出FormalMATH基准测试,包含5560道经过验证的数学题。尽管大语言模型在自然语言处理和代码生成领域表现优异,但在数学定理证明任务中成功率仅为16.46%。研究提出了一套三阶段过滤框架用于自动形式化和语义一致性检测,并分析了现有LLM证明器的表现,发现代数较强而微积分较弱,存在滥用自动化策略的问题。