Claude 3.7、QwQ-Max-Preview等推理大模型发布跟踪:兼看大模型逻辑推理技术总结及几点思考

近日推理大模型相关前沿回顾包括Claude 3.7的发布,Qwen的QwQ模型开源,FlashMLA的开源及PaliGemma 2 Mix模型的开源。文章还总结了大模型逻辑推理技术,并提出了一些值得思考的问题。

再聊误区–Deepseek-R1思考过程在使用中的几个问题及对策

DeepSeek R1 在 think 过程中的需求和问题引起了广泛关注,包括输出思考过程的需求、过长或过短的思考时间以及控制思考方向。文章探讨了这些问题,并提出了通过调整模型设置、修改prompt模板和干预token解码采样的方法来解决。