资讯
news
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
DIAMOND是日内瓦大学和爱丁堡大学提出的一种新型强化学习智能体,能在由扩散模型构建的虚拟世界中高效学习各种任务。在Atari 100k基准测试中,其平均得分超越了人类玩家,尤其擅长处理复杂环境中的细节和决策。
可以实现零代码开发的OPPO智能体平台,到底强在哪?
第三届中国高校计算机大赛——智能交互创新赛在杭州举行,OPPO提供技术支持和平台支持。哈尔滨工业大学的《雅韵智诵》获特等奖,四川大学的《走心》项目通过大模型代理集成到互动小说游戏中实现心理健康筛查。OPPO发布智能体开发平台,为开发者提供更多工具和支持,助力智能体技术的发展。
Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习
Andrej Karpathy 回忆自己曾看好 RNN 和强化学习,但最终未能把握住大模型时代的到来。他指出,2015年已经认识到自回归语言模型的强大潜力,却错过了发展大规模预训练模型的机会。
NeurIPS 2024 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
AIxiv专栏介绍及其相关研究,讨论了大语言模型中的自我纠错能力,并提出了理论分析方法。该研究指出,自我纠错是一种上下文对齐过程,通过优化LLM的最终输出以获得更高的奖励。
钻石冷却的GPU即将问世:温度能降20度,超频空间增加25%
Akash Systems 与美国商务部签署备忘录,计划使用钻石冷却技术提升 GPU 效率,并应用于卫星通信。该技术能降低热点温度、减少风扇速度并提高超频能力。未来或使数据中心节省数百万美元的冷却成本。
继良品率低后,英伟达Blackwell又出过热问题,说好的明年初发货呢?
英伟达发布的新一代AI芯片Blackwell因过热问题推迟发货,引发了客户担忧。尽管存在良品率低和设计缺陷的问题,但其强大的计算能力和能耗优势仍受到热烈追捧。
真的撞墙?OpenAI 的任务对齐主管:2025年AI会在高阶应用突破,但一般人会感觉停滞
文章讨论了OpenAI的研究人员预计,在接下来的阶段中,人工智能将在大量高度专业化的技术任务上表现出色,这可能让大多数人感觉进展停滞不前。作者推测这种现象类似于智能手机的普及过程,并对Gary Marcus在2026年仍坚持深度学习已触及瓶颈的观点表示怀疑。
对标o1,Kimi放出了最能打的国产模型
国内大模型初创公司月之暗面推出的新一代推理模型Kimi k0-math在数学能力上已实现对标OpenAI o1-mini和o1-preview,包括在中考、高考等基准测试中表现出色。该模型采用了强化学习和思维链推理技术,能够模拟人脑的思考过程,并能有效应对竞赛级别的数学题库。