逻辑推理归档

新版DeepSeek-R1深夜整大活！编程能力暴涨，实测直逼Claude 4，网友玩疯直呼太强了

上午11时 2025/05/29 作者智东西

DeepSeek发布了新版本R1-0528，并在Hugging Face上开源。该模型在编程、逻辑推理和交互能力等方面显著提升。开发者称其性能接近OpenAI的o4 mini和o3模型高版本。

MLNLP社区致力于促进国内外机器学习与自然语言处理的交流合作。最新研究论文探讨了如何解耦语言模型的记忆和推理能力，以实现更可控的大模型。

下午11时 2025/05/07 作者机器之心

符号逻辑推理的有效性与普遍性，
提升大模型的逻辑推理能力
成为解决幻觉问题的关键途径。
为推进大语言

下午4时 2025/04/18 作者 APPSO

文章介绍了Alibaba Cloud的最新模型O3在视觉推理方面的强大能力，包括其识别图片元素、理解并解决实际任务的能力。通过一系列测试题目展示了O3的表现，并对其局限性进行了讨论。

下午2时 2025/04/08 作者 AI信息Gap

Meta 新发布的Llama 4因基准测试成绩亮眼但遭用户质疑，称其实际表现不佳。Meta 因疑似数据污染技术而受到批评。此外，Meta的Llama 4 Maverick模型在多个任务如前端开发、逻辑推理等方面的表现也不尽人意。

下午2时 2025/03/13 作者 AI先锋官

谷歌发布Gemara 3全新开源模型，性能领先。对比阿里开源推理模型QwQ-32B，Gemma 3仅答对1题；而QwQ-32B全部回答正确。

下午2时 2025/03/11 作者 AI技术研习社

通过Ollama在本地安装、设置并运行QwQ-32B模型，学习如何使用Gradio创建一个逻辑推理助手。QwQ-32B具有高效运行和隐私保护等优势。