DeepCoder-14B-Preview 一个完全开源的代码模型
DeepCoder-14B-Preview:一个完全开源的代码模型,与 o3-mini 相当,数据集、代码和训练日志已公开,可于Together AI试用。
DeepCoder-14B-Preview:一个完全开源的代码模型,与 o3-mini 相当,数据集、代码和训练日志已公开,可于Together AI试用。
北京时间4月1日,OpenAI宣布将在未来几个月内发布一个‘强大且具备推理能力的新开放权重模型’,这是GPT-2发布以来的首次新模型计划。尽管OpenAI曾以’开放’命名,但其模型近年来大多采用了封闭策略。此次开放模型旨在为开发者、企业和政府提供更好的部署和使用体验,但仍会保留部分关键组件。
本文介绍了当前科研人员青睐的AI模型:o3-mini、DeepSeek-R1、Llama、Claude 3.5 Sonnet和Olmo 2。它们各有优劣,但为科研人员提供了多样选择。
去年圣诞节前后,OpenAI 开启了 ‘数据共享计划’,用户每天可免费获得总计1100万 tokens,其中包括gpt-4.5-preview、o3-mini等模型的API。最新活动延长至2025年4月30日,并推荐使用。但需注意不要上传任何隐私或敏感数据。
陶哲轩分享了使用AI(o3-mini)辅助证明数学难题的故事,包括成功解决了Ruzsa-Szemeredi的三角形移除引理,但当面对研究级别的问题时表现不佳。他指出,大模型在快速提供标准论证细节方面是优秀的用例,但仍需用户详细引导和验证答案的准确性。
OpenAI与美国能源部9个国家实验室联合举办‘1000科学家AI集结’活动,测试前沿AI模型加速科学突破。此次活动汇集了全美顶尖科研力量,包括洛斯阿拉莫斯、橡树岭等重要实验室。
近日,谷歌发布了一项高难度基准BIG-Bench Extra Hard(BBEH),旨在评估AI模型的高阶推理能力。该基准包含了23个任务,并将每个任务替换为更难的任务,覆盖更多方面的技能需求。如o3-mini (high)得分为44.8分不及格,而其它模型得分不超过10分。
OpenAI发布号称最好和最大的聊天模型GPT 4.5,虽然在基准测试中表现一般,但其强大的无监督学习能力、更低的幻觉率以及新引入的安全技术备受关注。