Linear-MoE:线性注意力遇上混合专家的开源实践
近年来,大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合,并开源了完整的技术框架,支持层间混合架构。
近年来,大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合,并开源了完整的技术框架,支持层间混合架构。
DeepSeek R1-0528版本超越xAI、Meta等成为全球第二大人工智能实验室,并与谷歌并列。其智能指数得分从60分跃升至68分,超过多个顶级模型,提升主要体现在数学竞赛、代码生成和推理方面。
文章介绍了飞猪上的旅行Agent“问一问”,它能根据用户的详细需求生成实际可用的行程规划,并且提供了详细的地图、行程卡片和预算信息。用户可以通过该工具预订酒店和机票,甚至调整预算后生成新的方案。
562146477609112
编辑丨GiantPandaLLM
0x00 前言
Triton Fu
上个五一用飞猪问一问规划了邮轮之旅后深感满意。新版本支持更多查询条件、上线会员助手,优化搜索能力。贵阳端午自驾游计划:选择大客机节省成本,会员系统提供优惠信息;行程可视化生成精美地图攻略并可导出分享;个性化对话功能帮助用户获得满意的行程建议。
DeepSeek官方近日宣布已完成DeepSeek R1模型的小版本试升级,并在HuggingFace上开源了新版本。该模型在代码生成方面提升显著,性能接近OpenAI的模型且超越Claude-4-Sonnet,但推理能力稍有不足。