高效训练归档

Linear-MoE：线性注意力遇上混合专家的开源实践

下午11时 2025/05/29 作者机器之心

近年来，大语言模型的研究热点转向了线性序列建模和混合专家架构的高效结合。来自上海人工智能实验室团队的Linear-MoE首次系统地实现了这两者的结合，并开源了完整的技术框架，支持层间混合架构。

下午2时 2025/05/27 作者 GiantPandaCV

本文介绍了一种名为RLFactory的开源框架，旨在通过简单且高效的端到端训练方法解决现有深度学习框架在奖励设计和工具配置上的复杂问题。

上午8时 2025/04/07 作者 NLP工程化

nanoAhaMoment是一款专门为大型语言模型设计的单文件强化学习库，特点包括：单GPU训练3B参数模型、提供详细教程和10小时内完成R1-zero倒计时任务。

下午2时 2025/03/26 作者小兵的AI视界

域，尤其是生物医学研究和临床诊断中，医学图像和文本数据的处理一直是关键挑战。
传统的单模态
AI
模

下午11时 2025/02/28 作者 PaperWeekly

WorldSense
，一个全新的基准测试，用来
评估多模态大模型（MLLMs）的多模态真实场景理

下午4时 2025/02/27 作者 NLP工程化

本文提出了Slam训练秘诀，在单张GPU和24小时资源限制下高效训练高质量语音语言模型，显著提升AI研究效率。

下午12时 2025/02/19 作者每日AI新工具

本文介绍了五款开源项目，包括视频生成模型SkyReels V1、高效训练大型语言模型的simple_GRPO、经济高效的个人AI助手Auto-Deep-Research、轻量级主动智能框架LightAgent以及记忆系统Memobase。

下午11时 2025/01/22 作者量子位

鱼羊发自凹非寺
量子位 | 公众号 QbitAI
春节前这一波大模型疯狂加更，字节也出手了，最新

上午8时 2024/12/30 作者 AIGC开放社区

OpenAI联合创始人Andrej Karpathy分享了中国开源大模型DeepSeek-v3，仅使用280万小时GPU算力即超越Llama-3。该模型在多种基准测试中表现优异，并采用MLA和MoE等高效策略节省大量计算资源。