200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源
复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力,项目代码简洁,仅依赖基础库实现,训练 7B 模型成本低至 7.3 元。
复旦大学知识工场实验室团队基于 GRPO 算法高效复现了 R1-zero 自发反思能力,项目代码简洁,仅依赖基础库实现,训练 7B 模型成本低至 7.3 元。
多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,
Ilya Sutskever 的创业公司 Safe SuperIntelligence(SSI)正洽谈超过10亿美元融资,估值将超过300亿美元。这家神秘企业由前苹果和OpenAI高管创立,专注于开发安全超级人工智能。
DeepSeek-R1 在 ARC-AGI 上的表现不及 OpenAI 的 o3 系列模型,但通过 SnakeBench 对抗性基准测试,在 1v1 贪吃蛇比赛中击败了 o1-mini,并接近 o3-mini。
多位2024 IBM博士生奖学金得主毕业于国内高校,涉及半导体技术、人工智能等前沿领域。其中包括清华大学、浙江大学等多个知名校友来源高校的研究者。
新基准ENIGMAEVAL对高难度问题提出挑战,显示主流推理模型在面对复杂谜题时准确率极低。研究者使用原始多模态谜题进行评估,发现前沿语言模型即使在普通谜题中表现也仅7.0%,且难以解决困难谜题。