阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

阿里通义团队提出的新范式PARSCALE通过扩展CFG的双路径到P条并行路径,显著提升了1.6B模型的性能,仅占用后者的1/22内存,并将延迟增加量减少至1/6。该方法无需从头训练现有模型(如Qwen-2.5),并在GSM8K数学推理任务中实现了34%的性能提升。

大语言模型与小语言模型协同机制综述

综述了 LLM-SLM 协同机制的最新研究进展,包括流水线式协同、路由机制、辅助性联动、知识蒸馏和模型融合等多种交互机制,系统梳理了关键支撑技术及多样化的应用场景需求,展示了该范式在构建高效、适配性强的人工智能系统的巨大潜力,并深入探讨了系统开销、模型间一致性等持续挑战。

谷歌发现LLM是Greedy Agent,提出用RL调教出理性决策

MLNLP社区是国内外知名的机器学习与自然语言处理社区,旨在促进学术界、产业界和爱好者的交流与进步。最新论文揭示了大模型决策中的三大缺陷,并通过强化学习微调结合思维链技术提升其决策能力。

R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调

本文提出Entropy Minimized Policy Optimization (EMPO)方法,旨在实现完全无监督条件下大模型推理能力的提升。该方法不需要监督微调或人工标注的答案,仅通过强化学习训练从基模型中获得策略,并利用语义相似性聚类生成的多个回答作为奖励信号,从而在数学及其他通用推理任务上取得显著性能提升。