Kimi首次开源了其一个16B参数的MoE模型：Moonlight-16B

Kimi首次开源了其一个16B参数的MoE模型：Moonlight-16B，它通过采用改进Muon优化器策略，比使用AdamW达到相同性能所需计算量减少了一半，总参数16B，激活3B。性能： 1、英文能力，在MMLU、BBH等任务上优于LLAMA3-3B、 Qwen2.5-3B
2、中文能力，在C-Eval、CMMLU等任务上优于Deepseek-v2-Lite
3、代码生成能力，在HumanEval、MBPP 等任务上优于 LLAMA3-3B、Deepseek-v2-Lite

参考文献：
[1] github：https://github.com/MoonshotAI/Moonlight
[2] 论文：https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
[3] https://huggingface.co/moonshotai/Moonlight-16B-A3B
[4] https://github.com/NVIDIA/Megatron-LM/pull/1428

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复