今天是2025年4月7日,星期一,北京,天气晴。
我们今天来看下请清明假期大模型进展,昨日0406进展,围绕llama4开源技术总结评测,吉卜力风格图像开源模型,多模态跟继续预训练讨论,大模型推理数据合成工作project long,社区第41讲大模型基础实操技术分享等话题,供各位参考。
抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。
一、llama4大模型、EasyControl文生图开源进展
1、文生图开源模型进展,吉卜力风格图像生成模型EasyControl_Ghibli
吉卜力风格图像,目前很受大家欢迎,所以,也可以这个工作的开源实现,代码地址在:https://github.com/Xiaojiu-z/EasyControl,《EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer》(https://arxiv.org/pdf/2503.07027)
相关权重地址在:https://huggingface.co/openfree/flux-chatgpt-ghibli-lora,https://huggingface.co/nitrosocke/Ghibli-Diffusion,https://huggingface.co/spaces/jamesliu1217/EasyControl_Ghibli
2、关于llama4评测及开源
目前出来了,评测效果并不是很理想,例如参照https://weibo.com/2169039837/5152396512071169的评估,效果其实并不太乐观,在它的这个评测集环境里,得到的结论是,评测结果是,llama-4-maverick 这个 402B 的大模型,大概跟Qwen-QwQ-32B 写代码水平一致,而llama-4-scout则近似于 Grok2或者文心-4.5。
然后对于中文,测下来,效果也一般。但有一点,我们可以看看里面的词表的对比。
3、Llama4模型四点核心总结及大模型推理数据合成工具Project Loong
我们来看下总结下,进行Llama4四大亮点最终总结,注意的是,中文支持的并不好,不友好国内使用,也不是推理模型,仅是MOE模型、不友好部署,所以不要太冲动。虽然是亮点,但是感觉亮点很小,推理跟参数比不过R1,那就打一个全模态,然后支持function call,虽然模型上下文长度可以到1000w,先不说kv-cache部署成本,看效果,目前超过几万以上就不太可用,所以也不会带来太大的影响。
地址在:https://mp.weixin.qq.com/s/JX9ztoOMOw-GVIn12d0cOg
现在很多自媒体已经翻车,吹llama4的,还是那样,依旧不严谨表述,这种教训要吸取。
二、社区讨论、线上分享及技术总结
1、老刘说nlp社区第41讲顺利完成
《老刘说nlp社区第41讲大模型的五个最基本实操-大模型部署\微调\文档解析\RAG\Agent》顺利结束,回放链接见社区群。
2、关于LLM后训练技术的总结
这个文章,https://zhuanlan.zhihu.com/p/30201040247,推荐给大家读读,对比项总结的很好。
是对《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》(https://arxiv.org/abs/2502.21321)论文的解读。
3、关于多模态微调跟继续预训练的讨论
多模态微调跟继续预训练的讨论,见社区微信群。
多模态pretrain,做cpt,大多都是用图文对二次对齐训练,比如我做文档多模态就这么搞。cpt图文对是image和caption,sft部分用问答对。cpt部分和sft部分的freeze不一定一样,CPT部分可能冻结预训练模型的部分参数(如视觉编码器),仅微调适配层以保持多模态对齐能力。SFT部分通常冻结预训练模型的主体参数,仅调整少量参数(如LoRA或适配器层)以适配特定任务,避免破坏原有知识。
(文:老刘说NLP)