跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

监督微调

14B检索能力超过Google Search,阿里ZeroSearch通过RL激发LLM检索推理能力~

下午2时 2025/05/11 作者 PaperAgent

阿里通义Lab提出的ZEROSEARCH是首个无需与真实搜索引擎交互的强化学习框架,旨在激励语言模型提升搜索能力。

分类 分享 标签 14B检索模块、 7B检索模块、 强化学习 (RL)、 监督微调、 课程式训练策略、 阿里通义Lab 发表评论

微软开源新版ph4:媲美DeepSeek-R1,参数暴降48倍

上午8时 2025/05/10 作者 AIGC开放社区

微软开源了三款小参数模型Phi-4 Reasoning、mini版本Phi-4 mini-reasoning和强化学习版本Phi-4 reasoning-plus,算力消耗低,在Windows系统生态中表现突出。

分类 资讯 标签 Phi-4、 Reasoning、 强化学习、 微软、 监督微调、 美国数学奥林匹克竞赛 发表评论

「推理革命」爆发100天:DeepSeek-R1复现研究全揭秘!

下午4时 2025/05/05 作者 新智元

系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。
最近,推理语言

分类 资讯 标签 DeepSeek-R1、 复杂推理、 多模态模型、 强化学习、 数学任务、 监督微调 发表评论

也看大模型排行榜Chatbot Arena的评估结论及MiMo-7B推理大模型实现思路

下午2时 2025/05/03 作者 老刘说NLP

题。
最近看到一句话,很有感触,
真正的技术护城河是:十年如一日的苦活、脏活、累活,说不清、道不明的

分类 大模型 标签 MiMo-7B、 大模型、 推理响应、 监督微调、 评估排行榜、 预训练 发表评论

Qwen 3 将于本周发布!

下午11时 2025/04/28 作者 AGI Hunt

Qwen团队确认Qwen3本周正式发布,将结合推理和非推理能力打造通用模型/智能体。技术路线包括渐进式长文本预训练和后训练等阶段。

分类 分享 标签 Junyang Lin、 人类反馈强化学习、 指令模型、 渐进式长文本预训练、 监督微调、 阿里通义千问团队 发表评论

Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限

下午4时 2025/04/21 作者 机器之心

了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
著名 AI 研究者和博主 Se

分类 学术、 资讯 标签 任务性能提升、 强化学习、 监督微调、 语言模型、 跨基准泛化、 随机种子 发表评论

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

下午4时 2025/04/20 作者 机器之心

扩散模型通过新框架d1实现推理功能,结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。

分类 学术、 资讯 标签 d1、 diffu-GRPO、 强化学习、 框架、 监督微调、 离散扩散大语言模型 发表评论

落地推理大模型“慢思考”的思考及DeepMath-103K推理数据集构造方案

下午2时 2025/04/18 作者 老刘说NLP

近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案,以及RAG方向的发展与应用。

分类 大模型 标签 DeepMath-103K、 LLM-Judge、 Omni-MATH、 基于规则的强化学习、 模型蒸馏、 监督微调 发表评论

推理AI「脑补」成瘾,废话拉满!马里兰华人学霸揭开内幕

下午4时 2025/04/14 作者 新智元

到「缺失前提」(MiP)的问题时,这些模型往往表现失常:回答长度激增、计算资源浪费。本文基于马里兰大

分类 资讯 标签 MiP-Overthinking、 多模态学习、 奖励机制设计、 强化学习、 监督微调、 知识表示训练 发表评论

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

上午11时 2025/04/14 作者 机器之心

了突飞猛进的进展。
在探索的过程中,一个核心的议题是:对于模型推理性能的提升来说,什么有效?什么无效

分类 学术、 资讯 标签 强化学习、 数学推理模型、 监督微调、 相关主题、 答疑、 讨论 发表评论
较早文章
页面1 页面2 页面3 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 盲测击败了ElevenLabs的一款TTS:Chatterbox
  • K8S集群化部署RAGFlow文档
  • DeepSeek 发布DeepSeek R1-0528
  • DeepSeek再次升级!R1-0528:站上世界第二,智力全面超越xAI与Meta!
  • WebDancer:迈向自主信息寻求的智能体

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×