HuggingFace上的热门开源模型,一半都来自中国了

头图由豆包生成 提示词:科技感十足的数字世界,背景是代码流
作者Yoky
邮箱yokyliu@pingwest.com
HuggingFace热门榜单几乎被中国模型“承包”了!
在最新的HuggingFace热门模型榜单中,中国模型的含量超过了50%。包括刚刚上新的QwQ-32B不同型号的推理模型,HunyuanVideo-12V的全新版本、长期霸榜的DeepSeekR1,以及Qwen和R1的衍生模型。
DeepSeek开源R1给整个大模型行业扔下一颗炸弹,引发了模型社区和企业的激烈讨论后,几乎已经确定了开源为主流技术路线,此前一直坚持闭源路线的如OpenAI、百度、月之暗面也相继表示将尝试开源路线。
与以往不同的是,R1之后的冲榜不只体现在数量多上,更体现在质量上。“早期一些大厂的开源模型只是挂上去,后续不会再运营和维护,现在在模型性能、实用性和稳定性上都有突破,对部署算力的要求更低,算是逐渐走出了独立曲线。”一位开发者讲道。
更值得注意的是,越来越多国际开发者选择中国基础模型作为微调起点,相比于Llama和Phi,以DeepSeek和Qwen系列模型为基点的衍生模型越来越多。
我们与多位开发者和企业聊了聊,为什么中国开源模型如此受欢迎?
1
要做就做真开源
在选择微调模型前,首先要关注的就是开放协议。
中国开源模型基本上采用的都是最为宽松Apache 2.0开放协议或MIT协议,这意味着开发者可以自由进行二次开发、商用,且基于这些模型开发的专利归开发者本人所有,有效规避了法律风险,为企业提供了确定性。
一位活跃于HuggingFace社区的资深开发者分享道:“我们团队最初只是试用Qwen系列,但很快发现其API设计和开源资源之完善超出预期。更重要的是,我们不必担心未来突然改变协议或限制使用,这种确定性对商业项目至关重要。”
不少海外初创公司也提到中国模型非常有利的许可模式让他们能够直接使用,无需繁琐的法律审查。即便是离商业化最近的视频模型,Wan和HunyuanVideo除了需要遵守相应的法规和限制条款,也是可以免费商用的。相比之下,Meta的Llama采用自主制定协议限制商用,且专利归原公司所有,这无疑增加了开发者的法律顾虑。
当我们随手打开HuggingFace中Llama模型的评论区就会发现,在开发者测试中,多次出现访问模型的请求被拒绝的情况。这种不稳定的访问体验,加上模棱两可的使用条款,让许多开发者望而却步。一位企业AI技术负责人直言:“我们不能基于一个随时可能被限制使用的模型来构建产品。”
其次,中国模型在开源深度上更进一步。不仅开放了从小到大等全系列不同参数规格的模型权重,还提供了各种量化版本和完整的训练数据集,甚至包括微调所需的数据模板。这种全面性让开发者能够根据实际需求和硬件条件选择最适合的版本。
“比如说适用于Qwen的编码数据集CodeAlpaca-20K,可在 Hugging Face 上可以直接找到。该数据集包含20000 条与编码相关的指令、输入和输出,可以满足基本的微调需求。”
这种完全的开放风格也影响了最新的中国模型开源,当HunyuanVideo-12v版本开源时,相较于2个月前的版本,开放权重更高。模型总参数量保持130亿,适用于多种类型的角色和场景,包括写实视频制作、动漫角色甚至CGI角色制作的生成。开源内容包含权重、推理代码和LoRA训练代码,支持开发者基于混元训练专属LoRA等衍生模型。
另一方面,从模型本身出发,Llama3目前仅提供8B、70B和405B三种规格,却缺少被业内公认为算力与性能最佳平衡点的32B参数规模。对大多数开发者而言,7B模型性能已不足以支撑复杂应用,而70B以上则需要强大的服务器支持,成本高昂。Qwen系列在这方面迭代更快,规格覆盖更全面,从超轻量到重量级都有解决方案。
一位海外开发者评价:“LLama3的迭代速度明显慢于Qwen系列,尤其是模型参数量规格的覆盖程度更是存在巨大的短板,至今仍然没有补齐。”
当然,在性能方面,中国模型已与顶级闭源模型相当甚至在某些领域超越。DeepSeek-R1自上线以来,已经成为开源社区最受欢迎的推理模型,最新评测数据显示,Qwen-72B模型已经超过GPT4水平,而在处理中文等特定任务时表现更佳。DeepSeek系列在代码生成能力上也获得了超过顶级模型的评分。
有开发者对比发现,完全微调Qwen 1.5 0.5B模型比使用QLoRA对Phi 1.5进行微调的效果要好得多,且Phi的微调时间要接近Qwen的5倍。
与其他打着“开源”旗号却设置诸多限制的模型不同,中国模型在开放程度和性能表现上找到了平衡,这正吸引全球开发者加入这一生态。
1
让咖啡店老板都能跑大模型
由于美国对高端GPU的出口管制,迫使中国开发者从依赖硬件堆砌的传统路径转向“算法优先”的创新模式。这种“算力短缺倒逼算法升级”的逻辑,推动中国开源模型形成独特的竞争力:通过架构创新与算法优化,在有限算力下实现可用性最大化,降低部署门槛,让咖啡店老板都能跑大模型。
比如最新的QwQ-32B推理模型,几乎完全超越了OpenAI-o1-mini,远胜于o1-mini及相同尺寸的R1蒸馏模型,在保持性能的前提下把模型做小到32B的最佳部署参数区间,是呈现出来的一个趋势。
“本质上是用算法复杂度置换高算力需求,当模型参数量降低两个数量级时,训练所需的显存从千兆字节级压缩至消费级显卡可承载的96GB以内,大模型的部署不再依赖专业计算集群。”
参数变小后再通过特定的算法降低内存和对显存的需求,QwQ-32B在消费级显卡4090或一台装备M4芯片的MacBook上就能完成部署。
再比如视频生成类模型HunyuanVideo-12V和Wan2.1版本,也可在T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。可在约 4 分钟内(未使用量化等优化技术)在 RTX 4090 上生成 5 秒的 480P 视频。
另外一方面,是中国大模型已经完全建立起了开放生态,开源方法得到了第三方项目和工具的广泛支持。
在训练和微调方面,多个开源框架为中国大模型提供了强大支持。例如,DeepSpeed Chat 提供了一键式RLHF(基于人类反馈的强化学习)训练框架,支持从数据预处理到模型评估的完整训练流程,显著降低了复杂任务的开发门槛。
此外,LLaMA Efficient Tuning 提供了基于PEFT(参数高效微调技术)的微调框架,支持LoRA、Adapter等多种微调模式,使开发者能够以更低的计算成本实现模型性能的优化。这些开源工具不仅覆盖了从预训练到微调的全流程,还通过模块化设计提高了灵活性和易用性,为开发者提供了丰富的选择。
在模型推理方面,同样有多种高效框架支持中国大模型的部署。例如,vLLM 针对大批量Prompt输入场景进行了优化,通过动态内存管理和高效调度算法,显著提升了推理速度和吞吐量。而 Xinference 则是一个功能全面的分布式推理框架,支持多节点并行计算,简化了大语言模型的部署流程,尤其适合高并发、低延迟的应用场景。
这些框架与中国大模型(如Qwen、DeepSeek等)完全适配,不仅提升了推理效率,还降低了硬件资源需求,使得模型的部署更加便捷和经济。
模型最开放、型号最全,与开放生态工具完全耦合,同时兼具着最低的部署门槛,使更多开发者能够参与试用,来自中国厂商的这样的开源模型还会越来越多,一个全新的生态结构正在慢慢建立起来。
点个爱心,再走

(文:硅星人Pro)

欢迎分享

发表评论