跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

复杂推理

刚刚,新版DeepSeek-R1正式开源!

下午7时 2025/05/29 作者 Datawhale

新版DeepSeek-R1开源,编码能力、推理能力和思考时间显著提升。支持长时思考且编程能力强到爆。与Gemini 2.5 Pro对标,表现不俗。多项实测展示其强大功能。

分类 分享 标签 DeepSeek-R1、 LiveCodeBench、 光线设计、 华容道问题、 复杂推理、 编码前端 发表评论

「推理革命」爆发100天:DeepSeek-R1复现研究全揭秘!

下午4时 2025/05/05 作者 新智元

系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。
最近,推理语言

分类 资讯 标签 DeepSeek-R1、 复杂推理、 多模态模型、 强化学习、 数学任务、 监督微调 发表评论

模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板

下午4时 2025/04/29 作者 PaperWeekly

仿学习只学不练、强化学习只练不学”的传统壁垒。
论文标题:
Learning to Reason u

分类 大模型、 学术 标签 LUFFY、 复杂推理、 强化学习、 模仿学习、 温度控制、 离策略 发表评论

o3 & o4-mini 发布:哪些模型该被替代

下午2时 2025/04/17 作者 赛博禅心

今天凌晨,OpenAI 发布两款新模型:o3 和 o4-mini。o3 是 o1 的升级版,适合复杂系统和多步推理;o4-mini 是 o3-mini 的替代品,价格更优惠且性能提升。文章总结了两款模型在不同场景下的表现及推荐使用场景。

分类 分享 标签 o3、 o4-mini、 OpenAI、 两款新模型、 价格提升、 复杂推理 发表评论

自动学会工具解题,RL扩展催化奥数能力激增17%

下午11时 2025/04/01 作者 机器之心

用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

分类 学术、 资讯 标签 ToRL、 复杂推理、 开源实现、 强化学习、 性能提升、 数学模型 发表评论

阿里开源 Qwen2.5-VL-32B:小模型,大能量

下午2时 2025/03/25 作者 子非AI

阿里巴巴发布Qwen2.5-VL-32B-Instruct,参数仅为32B却在多项关键指标上超越自家72B模型及GPT-4。该模型展示了强大的数学推理、图像理解能力,并且可以在单 GPU或配置合理的Mac笔记本电脑上运行。

分类 分享 标签 72B、 Apache 2.0、 Qwen2.5-VL-32B-Instruct、 图像理解、 复杂推理、 阿里巴巴 发表评论

Claude think ≠ extended thinking,傻傻分不清?官方教程来了!

上午11时 2025/03/22 作者 AGI Hunt

ng at Anthropic,专门为开发者提供实用建议和最新发现。
文中详细讲解了Claude的「

分类 分享 标签 τ-bench、 乘客投诉、 复杂推理、 航班延误、 航空领域、 透明度 发表评论

长链推理表象下,大模型精细表征张冠李戴的本质

下午12时 2025/03/13 作者 机器之心

司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,D

分类 学术、 资讯 标签 不可靠交互、 伦理风险、 复杂推理、 张冠李戴、 法律责任、 精细表征 发表评论

阿里通义、港科大等提出RAG与长文本对比新框架,助力智能路由决策机制设计

下午4时 2025/03/11 作者 PaperWeekly

初的
4K token
到如今普遍支持的
128K
甚至百万级
token
输入,
“
长文本
”

分类 大模型、 学术 标签 LC LLMs、 RAG、 优势、 劣势、 复杂推理、 确定性答案 发表评论

Claude玩宝可梦,卡关就「装死」重启,大模型:逃避可耻但有用

下午11时 2025/03/09 作者 机器之心

Anthropic 发布的 AI 模型 Claude 在玩宝可梦时为了目的不择手段,过度思考导致频繁摆烂。研究者们从多种角度提出了解决思路。

分类 学术、 资讯 标签 复杂推理、 大模型、 效率降低、 腾讯AI Lab、 谷歌o1系列、 过度思考 发表评论
较早文章
页面1 页面2 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 提示工程101第十四课:处理歧义与提升清晰度
  • 未来属于AI SaaS,这8个开源工具必不可少!
  • 95%的人不知道什么是AGI,也不知道他们将很快失业
  • 再见Latex,基于Markdown的多功能排版系统Quarkdown
  • 中美史诗级大团结,在一款被玩家狂喷的游戏里实现了

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×