OpenAI重夺竞技场第一,但这波靠的是4o
OpenAI开发者日新加坡站举行,新版ChatGPT发布。此版本更新了创意写作能力,并且在多项具体能力和综合排名中表现突出。新版本击败Gemini-Exp-1114和Claude 3.5 Sonnet等竞争者,总胜率达到72%以上。OpenAI还透露即将上线的o1满血版及其开源计划引发了网友们的关注与讨论。
OpenAI开发者日新加坡站举行,新版ChatGPT发布。此版本更新了创意写作能力,并且在多项具体能力和综合排名中表现突出。新版本击败Gemini-Exp-1114和Claude 3.5 Sonnet等竞争者,总胜率达到72%以上。OpenAI还透露即将上线的o1满血版及其开源计划引发了网友们的关注与讨论。
阶跃星辰自研万亿参数语言大模型Step-2位列全球第五,成绩逼近OpenAI。其表现突出的IF Average指标超越了包括GPT-4在内的所有国内外模型。
专注AIGC领域的专业社区分享了ChatGPT与5岁小孩对话超过45分钟并耐心解答的问题案例。此现象引发了教育界人士对于AI教师潜力及未来影响的讨论。
文章讨论了OpenAI的研究人员预计,在接下来的阶段中,人工智能将在大量高度专业化的技术任务上表现出色,这可能让大多数人感觉进展停滞不前。作者推测这种现象类似于智能手机的普及过程,并对Gary Marcus在2026年仍坚持深度学习已触及瓶颈的观点表示怀疑。
国内大模型初创公司月之暗面推出的新一代推理模型Kimi k0-math在数学能力上已实现对标OpenAI o1-mini和o1-preview,包括在中考、高考等基准测试中表现出色。该模型采用了强化学习和思维链推理技术,能够模拟人脑的思考过程,并能有效应对竞赛级别的数学题库。
kimi发布数学模型k0-math,可深入思考并展示解题过程。k0-math在多个数学基准测试中超过OpenAI的o1系列,并能详细解释其解题思路和决策过程。