Lilian Weng离开OpenAI后重磅回归首篇博客:揭示强化学习的“暗面”
Lilian Weng分析了奖励黑客现象,在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为,并指出这是人工智能广泛应用的重大障碍,呼吁更多研究缓解措施。
Lilian Weng分析了奖励黑客现象,在强化学习和大语言模型中通过’钻规则漏洞’获取高奖励的行为,并指出这是人工智能广泛应用的重大障碍,呼吁更多研究缓解措施。
第二届人工智能数学奥林匹克竞赛(AIMO)认可阿里发布的推理模型QwQ-32B。该模型被纳入竞赛模型白名单,遵循三项设计原则:AI模型需符合人类参赛者的要求、特等奖条件和公共共享协议。著名数学家陶哲轩关注并认可QwQ-32B模型的进展,强调了白名单审批流程的重要性及其在推动竞赛创新中的核心作用。
谷歌前CEO埃里克-施密特表示,中国在人工智能领域追赶美国的速度令他震惊。5月时他认为中美存在2-3年差距,但11月观察到可能仅落后一年;目前认为中国有望在一年内赶上。施密特指出,这使得其他国家远远落后,且第三方可能从中国或美国窃取技术。
OpenAI销售总监GC Lionetti预测到2029年通过企业级应用使ChatGPT实现100亿美元收入。OpenAI正转向帮助企业制定战略,专注提升推理模型并准备过渡至自主代理。
Anthropic为Claude推出了样式定制功能,用户可以选择标准、简洁、正式或解释性等预设样式,并可根据需要自定义样式。这有助于更贴近个人需求和风格。
Sora API 早期测试被艺术家泄密,艺术家认为OpenAI过度控制并滥用测试计划。他们通过泄露API访问权限表达不满,并发布了一个前端工具供他人生成视频。该行为仅持续了3小时就被OpenAI紧急叫停。