递归神经网络的复兴:Mixture-of-Recursions

近期,Google DeepMind研究者的一个工作引起了广泛讨论。


研究者们设计了一种很聪明的语言模型,它在处理一句话时,能像人一样判断哪些词更关键、需要“多想一想”(也就是进行更深度的递归计算)。


其次,它通过一个轻量级的“路由器”来决定让每个词在共享的网络模块里“循环”几次,对简单的词就少算几次,这样不仅让模型参数更少,也大大节省了计算资源。


最终的结果非常惊人:在同等训练成本下,这种“会思考”的模型表现显著优于传统模型,用更小的模型尺寸和更少的计算量,就达到了甚至超过了更大模型的性能。



有海外研究者评论道:



是否有其他思路来解决动态算力分配的问题呢?


我们使用秘塔深度研究:【传统Transformer模型的一个问题是针对每一个token消耗了固定的计算量,有什么其他的模型或算法是根据生成的难度动态进行算力分配的?】



下面是它的研究过程,生成了动态“问题链”:


https://metaso.cn/s/6MxpcgU


从它的报告中,还能发现很多其他解决该问题的比较有意思的思路,比如:

  • 《D-LLM: A Token Adaptive Computing Resource Allocation Strategy for Large Language Models》 提出了一种根据token难度动态分配计算资源的机制,是目前少见直接对标“token-level算力分配”的工程方案,对推理效率影响很大。 

  • 《Mixture-of-Depths: Dynamically Allocating Compute in Transformer-Based Language Models》 则来自DeepMind,和我一开始看的那篇Mixture-of-Recursions有异曲同工之妙——它也让每个token根据复杂度决定“走多深”,并从架构层面优化了整个计算图,很多细节值得深入对比。 

  • 《Leap-of-Thought: Accelerating Transformers via Dynamic Token Routing》 给我另一个角度的启发:不仅可以在深度上动态分配,也可以在token路径选择上做智能“路由”,将token引导到不同计算分支上,从而节省整体推理资源。

下面是最终生成的互动网页报告:


上下滑动可查看完整内容

(文:PaperAgent)

发表评论