Qwen3 8B 的 BitNet 版本

Qwen3-8B-BitNet 这个模型是基于 Qwen3-8B 进行微调，使用的数据集是 Prime Intellect 的 SYNTHETIC-1 约 1B 个 token，并在每个线性层的输入中添加了 RMSNorm。所有线形层（包括 LM Head）都已转换为 BitNet。所以这个模型被压缩得非常小，只有2.5B 左右。不过作者并没有放出跑分，所以投入生产前建议自己测一下。

参考文献：
[1] http://huggingface.co/codys12/Qwen3-8B-BitNet

知识星球：Dify源码剖析及答疑，Dify扩展系统源码，AI书籍课程|AI报告论文，公众号付费资料。加微信buxingtianxia21进NLP工程化资料群，以及Dify交流群。

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复