阿里开源推理模型QwQ-32B,实测PK比他大20倍的DeepSeek-R1

阿里巴巴发布全新推理模型QwQ-32B,参数量为32亿,在多项基准测试中与DeepSeek-R1相当或优于OpenAI的模型。展示了出色的逻辑推理、数学分析和知识储备能力,但在处理复杂问题、运用物理知识和理解特定领域概念方面仍有提升空间。

OWL:0天复刻Manus通用智能体,完全开源!GAIA Benchmark最强性能!

最近AI圈最炸的瓜,无疑是Manus。一个能远程开Ubuntu容器、自动挂载数据、做规划并执行任务的AI Agent。CAMEL-AI团队看到后表示就这?他们0天复刻了OWL项目,并且在开源性能上达到了57.7%,超越Huggingface的Open Deep Research 55.15%表现。Manus内测邀请码被炒到几万块,而OWL则直接免费开源。OWL不仅能在GitHub一键clone,还提供自由外挂、远程操作等工具链和执行环境。通过逆向工程,OWL已将Manus的技术路线拆解成6步工作流,并计划开源其工具包和记忆模块。未来还将引入跨平台操作技术,实现CRAB+OWL的全能版开发。

港理工提出TokenSkip:让大模型在CoT中“跳”过冗余token,压缩40%,性能几乎不降!

MLNLP社区致力于促进国内外机器学习与自然语言处理领域的交流合作。近日,一篇关于LLM的论文提出TokenSkip方法,通过跳过不重要token来压缩思维链,提高推理速度和用户体验。