跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

Scaling Law

Now, Scaling What?

上午11时 2025/05/25 作者 机器之心

机器之心PRO本周解读:自2024年起,Scaling范式开始转移。研究者从”预训练之后,What to Scale Now?”入手,探索新的Scaling目标。TTS(Test-Time Scaling)方法在推理阶段增加计算资源来增强模型性能成为关注热点。

分类 学术、 资讯 标签 Post-Training Scaling Law、 Scaling Law、 Self-Play RL+ LLM、 Test-time Scaling、 Test-Time Training、 微调 发表评论

近期Claude、Grok系统提示词事件的几点思考及偏好学习中的Scaling law论证

下午2时 2025/05/18 作者 老刘说NLP

rompt的事件引发了大家的广泛关注,其中会有些思考,例如System Prompt到底是个啥?作用

分类 大模型 标签 Scaling Law、 WorldPM-72B、 偏好建模、 帮助者指导、 泛化能力、 语言模型 发表评论

早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?

下午4时 2025/05/11 作者 机器之心

本周解读机器之心PRO会员通讯第19期,涵盖2项专题解析及29项AI&Robotics要事速递。重点讨论了Native多模态模型的训练过程差异以及早融合晚融合的优劣。

分类 学术、 资讯 标签 Native多模态大模型、 Scaling Law、 Sundar Pichai、 早融合、 晚融合、 跨模态依赖关系 发表评论

李建忠:大模型技术创新驱动的 AI 生态和应用演进

下午4时 2025/04/24 作者 AI科技大本营

副总裁、Boolan 首席技术专家李建忠,在 2025 全球机器学习技术大会上,绘制了一幅宏大的 A

分类 分享 标签 A2A协议、 agent、 Scaling Law、 多模态技术、 强化学习、 组织协作 发表评论

黄仁勋「组局」,具身智能的核心玩家们聊了聊人形机器人的落地与未来

下午11时 2025/04/16 作者 Founder Park

N1,老黄特别提到未来重点关注的趋势是「Physical AI」(物理 AI)。
不仅如此,老黄还把

分类 资讯 标签 Scaling Law、 实际应用、 机器人技术、 社区投入、 突破发展、 跨域融合 发表评论

OpenAI自曝GPT-4.5训练内幕:数据效率是关键,预训练仍然有用

下午11时 2025/04/14 作者 Founder Park

人员进行了一场 45 分钟的高信息量对谈,首次披露了这款模型
研发耗时严重超期
、
计算集群频繁故障

分类 资讯 标签 Scaling Law、 数据集多样性、 无监督学习、 算法改进、 通用性模型、 预训练效果 发表评论

ICLR高分论文险遭拒,只因未引用「造假」研究???作者怒喷:对方论文用Claude生成

下午4时 2025/04/14 作者 量子位

ICLR拒稿的高分论文因未引用前研究而被接受后引发争议。作者举报该研究存在实验结果矛盾、涉嫌抄袭及不当行为,双方拒绝引用对方。最终论文被选为Spotlight。

分类 资讯 标签 Claude生成、 COLM 2024、 Scaling Law、 学术讨论、 学术诚信、 强模型崩溃 发表评论

OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现“灾难性问题”

下午4时 2025/04/13 作者 智东西

消息,近日,在OpenAI史上最贵模型GPT-4.5发布1个多月后,OpenAI联合创始人兼CEO萨

分类 资讯 标签 Scaling Law、 压缩理论、 数据效率、 稀疏表示、 算法改进、 预训练 发表评论

智谱发的“干活Agent”,不用邀请码

下午2时 2025/04/01 作者 智能涌现

智谱推出AI Agent产品‘沉思’,具有深度思考能力。相比Manus更突显模型本身的思考能力,并已在免费上线。张鹏认为预训练仍然重要,未来应用形态会回归到模型上。

分类 资讯 标签 AI Agent、 GLM-Z1-Air、 Scaling Law、 交互界面设计、 智谱、 沉思 发表评论

从DeepSeek R1的复现看深度思考模型的未来|ML-Summit 2025

下午4时 2025/03/31 作者 AI科技大本营

ML Summit 2025将于4月18-19日在上海召开,由CSDN & Boolan联合主办,张俊林将分享《从DeepSeek R1的复现看深度思考模型的未来》。

分类 分享 标签 DeepSeek R1、 Grok 3、 ML Summit 2025、 Scaling Law、 人工智能、 张俊林 发表评论
较早文章
页面1 页面2 页面3 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克 黄仁勋

近期文章

  • 【最新AI综述】人工智能为什么越来越聪明?15年重大突破告诉你答案!
  • Claude 4核心成员万字实录:行业大模型不是未来趋势
  • 仅150M参数!Reason-ModernColBERT推动RAG检索能力直达第三阶段!
  • Anthropic称DeepSeek未超越前沿,仅是训练时间更晚:我们也可以用「500万美元或广告中宣传的任何金额来训练它。」
  • 被知乎文化所感染的第 1947 天

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×