ICML 2025 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
,彩云科技CEO袁行远。
残差连接(residual connections)自何恺明在 2015
,彩云科技CEO袁行远。
残差连接(residual connections)自何恺明在 2015
就训练出
一个
完全不用Transformer注意力
的
72B大模型,性能竟超越GPT 3.5?!
英伟达在GTC 2025大会上发布专用于AI Agent的Llama Nemotron模型,并推出了性能更强的Blackwell Ultra AI工厂。