字节跳动发了个新模型：BAGEL-7B-MoT

这是个混合专家多模态模型，支持视觉理解，文本到图像生成，图像编辑，并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-980-flash-attn2-navit 模型微调的，并使用 FLUX.1-schnell VAE 模型。

参考文献：
[1] 论文地址：https://huggingface.co/papers/2505.14683
[2] 模型地址：https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
[3] repo: https://github.com/bytedance-seed/BAGEL

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复