分享一个DeepSeek V3和R1中 Shared Experts和普通Experts融合的一个小技巧 下午2时 2025/04/03 作者 GiantPandaCV R1 应用一个fuse shared experts到普通256个expert中的工作 (https