DeepseekR1 归档

再看大模型幻觉排行、检测工具及多模态RAG技术范式总结

2025年4月21日14时作者老刘说NLP

实现范式，也有多模态RAG中的embedding和rank模型进展
，可以看看。
另外，
关于幻觉问

HuggingFace上的热门开源模型，一半都来自中国了

2025年3月12日12时作者硅星人Pro

HuggingFace热门榜单显示中国大模型超过50%。DeepSeekR1和Qwen等模型因性能、实用性和稳定性提升而受欢迎，Apache 2.0/MIT许可协议提供法律确定性。开发者更偏好开源深度更高的中国模型，如Qwen系列支持多种参数规格及全面数据集。中国大模型已在OpenAI的Llama3之上或在某些任务上超越，其在部署门槛和性能方面均表现优异。

再聊误区–Deepseek-R1思考过程在使用中的几个问题及对策

2025年2月23日14时作者老刘说NLP

DeepSeek R1 在 think 过程中的需求和问题引起了广泛关注，包括输出思考过程的需求、过长或过短的思考时间以及控制思考方向。文章探讨了这些问题，并提出了通过调整模型设置、修改prompt模板和干预token解码采样的方法来解决。

Deepseek R1及Deep research复现回顾及近期前沿进展速递

2025年2月16日19时作者老刘说NLP

2025年02月16日，北京晴天。社区第39讲《DeepseekR1及Deepresearch复现》顺利结束，老刘报告了4小时深度讨论内容。介绍了大模型推理和复现进展，包括DeepSeek-MoE-ResourceMap、OpenR1-Math-Raw等资源库，并展示了OpenThinker-32B在MATH500测试中的表现。研究发现，长链推理的结构比内容更重要。老刘呼吁社区成员参与讨论。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31