复杂推理
阿里开源 Qwen2.5-VL-32B:小模型,大能量
阿里巴巴发布Qwen2.5-VL-32B-Instruct,参数仅为32B却在多项关键指标上超越自家72B模型及GPT-4。该模型展示了强大的数学推理、图像理解能力,并且可以在单 GPU或配置合理的Mac笔记本电脑上运行。
Claude玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用
Anthropic 发布的 AI 模型 Claude 在玩宝可梦时为了目的不择手段,过度思考导致频繁摆烂。研究者们从多种角度提出了解决思路。
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek
OpenAI公开了O3-mini的推理思维链,允许免费用户和付费用户查看。模型回答了一个关于为什么今天不是星期五的问题时展示了复杂的思考过程,并使用蔡勒公式进行了计算。此外,开发者还讨论了完整思维链对AI的理解和调试影响。
太猛了!DeepSeek R1核心技术复现,30美元实现:小模型 RL Scaling 革命
来自加州伯克利大学的研究团队以极低的成本(低于30美元)成功复现了DeepSeek R1-Zero的关键技术,并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
新智元报道
编辑:KingHZ
AI模型在「人类最后一次考试」中的准确率低于10%,表现自信过度。该项目包含3000个问题,覆盖100多个学科领域。
o1再升级!人大&清华提出Search-o1:赋予推理模型主动搜索的能力
本文提出了一种新的推理框架Search-o1,通过自主知识检索和文档内推理模块提高了大型推理模型的知识获取能力,显著提升了其在复杂任务中的表现,并展示了其在解决知识不足问题上的潜力。