老刘说NLP，作者每时AI

大模型上周回顾及Deepseek开源周总结：兼看面向多任务的模型融合思路

2025-03-03 作者老刘说NLP

，发现一些有趣的问题，比如模型参数融合的玩法，会有更多收获。
围绕模型参数融合，MOE可视化图解，d

2025-03-02 作者老刘说NLP

2025年转眼已过1/6，老刘说NLP技术社区已完成三次线上技术交流，涵盖RAG、Deepseek-R1推理大模型等话题。社区持续发布内容，欢迎更多成员加入，通过会员制提供多种权益和分享机会。

2025-03-02 作者老刘说NLP

，可视化图解moe讲的挺不错，转载过来并做翻译，当作记录，值得收藏慢慢看。
原文在：https://

2025-03-02 作者老刘说NLP

个整理的技术工作。
DeepSeek-R1在处理数学、编码、谜题和科学问题以及回应一般问题时表现出出

2025-02-28 作者老刘说NLP

今天继续看RAG进展，看推理模型用于RAG的两个思路。
另一个看看将R1推理路径用于多模态模型的一个

2025-02-27 作者老刘说NLP

ude3.7的混合模型推理机制解析
》（https://mp.weixin.qq.com/s/duf

2025-02-26 作者老刘说NLP

aude3.7的混合模型推理机制，昨天提出了一些疑问，思考了下，有些思路。
另一个是关于RAG，目前

2025-02-25 作者老刘说NLP

近日推理大模型相关前沿回顾包括Claude 3.7的发布，Qwen的QwQ模型开源，FlashMLA的开源及PaliGemma 2 Mix模型的开源。文章还总结了大模型逻辑推理技术，并提出了一些值得思考的问题。

2025-02-24 作者老刘说NLP

今天是2025年02月24日，星期一。文章讨论了mobile agent的思考和开源进展，包括MoE小模型Moonlight-16B-A3B、Qwen2.5-VL及deepseek开源周day1开源FlashMLA等项目。此外还介绍了RAG在写作场景中的应用进展。

2025-02-23 作者老刘说NLP

DeepSeek R1 在 think 过程中的需求和问题引起了广泛关注，包括输出思考过程的需求、过长或过短的思考时间以及控制思考方向。文章探讨了这些问题，并提出了通过调整模型设置、修改prompt模板和干预token解码采样的方法来解决。