收敛速度最高8倍,准确率提升超30%!华科发布MoE Jetpack框架 NeurIPS 2024
华中科技大学提出MoE Jetpack框架,利用密集激活模型权重微调出混合专家(MoE)模型,大幅提升了精度和收敛速度,解决MoE预训练需求高问题。
news
华中科技大学提出MoE Jetpack框架,利用密集激活模型权重微调出混合专家(MoE)模型,大幅提升了精度和收敛速度,解决MoE预训练需求高问题。
研究人员提出LoLCATs方法,通过低秩线性转换将传统注意力无缝转移到线性注意力,使生产级大模型如Llama 3.1 405B的训练效率大幅提升。
美国提出AI‘曼哈顿计划’以研发匹配或超越人类智能的AGI系统,全面对抗中国。国会建议包括政府提供资金支持领先企业、简化数据中心许可流程以及立法限制中国技术进口等措施。
Satya Nadella 在微软Ignite大会上表示,关于扩展定律是否已经“撞墙”的争论有很多。他认为这些观察是长期有效的经验,并鼓励创新。他提出“测试时计算”作为新的扩展规律,并指出Copilot和AI技术栈将帮助构建一个由AI代理组成的未来世界。