推理模型归档 - 第3页共6页

RAG中的chunk质量如何评分？HiRAG对GraphRAG的改进思路及推理大模型用于机器翻译

下午7时 2025/03/16 作者老刘说NLP

2025年3月17日的文章介绍了RAG相关进展的三方面内容：推理模型在机器翻译中的应用、量化文本分块的有效性方法，以及通过引入层级结构解决局部信息与全局信息间的差距问题。

下午11时 2025/03/07 作者机器之心

阿里开源新一代32亿参数推理模型QwQ-32B，其性能比肩6710亿参数的DeepSeek-R1。QwQ-32B在数学推理、代码生成及通用任务处理能力上实现显著突破，并预示着「最强模型」走进个人设备时代。『算了么』平台提供一键部署方案，让普通人能轻松体验高性能大模型，降低使用门槛。

下午4时 2025/02/28 作者量子位

北大团队发现一段提示词可以让大模型陷入无限思考，并且这种现象可以传递和复制。研究显示乱码问题更容易引发模型的“stuck”机制，说明模型有一定程度的防御措施，但面对具有含义的正常文本时仍需加强。

下午4时 2025/02/27 作者 Z Potentials

Nvidia CEO 黄仁勋在财报电话会议上重申DeepSeek不会影响销售，并强调其旗下的R1模型对Nvidia来说是重大利好消息。黄仁勋还宣布NVIDIA专为推理定制的最新Blackwell芯片需求强劲，公司收入创纪录达到393亿美元。

下午4时 2025/02/25 作者 AI前哨站

南都消息：字节跳动旗下豆包聊天机器人推出显示推理过程的思维链功能，该功能基于自研的深度学习模型研发。腾讯和百度等公司也相继接入类似的服务。

下午2时 2025/02/23 作者老刘说NLP

DeepSeek R1 在 think 过程中的需求和问题引起了广泛关注，包括输出思考过程的需求、过长或过短的思考时间以及控制思考方向。文章探讨了这些问题，并提出了通过调整模型设置、修改prompt模板和干预token解码采样的方法来解决。