老刘说NLP
大模型落地及Agent记忆的有趣观点:兼看SVG生成用多模态大模型怎么做?
今天是2025年4月11日,周五。文章讨论了大模型落地以及Agent记忆的有趣观点和SVG生成用多模态大模型的方法。其中提到企业转型最缺懂业务的变革翻译官、需要专注场景且避免技术参数导向ROI等观点;同时介绍了三种基于多模态大模型进行SVG生成的工作及其技术细节。
多模态RAG及多模态R1推理中如何为不同的视觉数据生成描述Caption?OMNICAPTIONER实现思路
度依赖开源,开源大多数只能赶凑合,能快速上线,但是带来的风险是会黑盒化,不可控。我们如果要开发自己的
清明假期大模型技术进展回顾:llama4大模型、EasyControl吉卜力风格开源模型及LLM后训练技术总结
今日介绍请清明假期大模型进展,涵盖Llama4开源评测及吉卜力风格图像生成模型EasyControl_Ghibli,指出中文支持效果不佳,建议谨慎使用。同时总结了多模态微调与继续预训练讨论,并推荐相关技术文章阅读。
RAG技术于视频文章生成及东方语种+汉语方言识别Dolphin实现思路解析
2025年4月3日,北京天气晴朗。《Large Language Models Pass the Turing Test》评测了四个系统的表现,发现添加人设提示可以显著提升AI模型被误认为人类的比例。关于RAG和语音识别技术,文章介绍了WIKIVIDEO视频文章生成方案及面向东方语言的Dolphin语音大模型开源方案。