凑个热闹,测试一波DeepSeek新上的o1推理模型


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | NLP工作站
作者 | 刘聪NLP

自从openai的o1出来之后,各大厂都在默默发力,几个月了,国内也开始有o1模型了。

前两天,有kimi的 k0-math模型视频露出,昨天deepseek就来个大的,直接发布线上可测试的r1模型(每天限50次)。

现在处在测试阶段,后面会开源,有点期待的。

官方帖子说明

由于现在没有技术报告,从官方帖子上可以看到数学、代码等能力很强。具体细节等论文出来后再详聊。

来自 https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw

下面主要进行一些测试:

先说一下整体感受,数学和代码上的能力确实很强,但其实文字上的逻辑推理还有待提高。总体是超出我的预期的。

  • 2024年年高考全国甲卷数学(文)试题

结果正确,-7/2
  • 2024年高考全国甲卷数学(理)试题
结果正确,C方程为y^2=2x+1,a=3/4
数学测试了比较多,基本上都是正确的,并且推理过程也很完整,有自我纠错的过程。
下面为老几样:
  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
结果正确,很强,推理过程我很满意,看过我之前评测的懂得都懂。
  • 用水来兑水,得到的是浓水还是稀水
  • 监狱里的都是犯人,为什么警察不去监狱里抓坏人
  • 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
接下来是两个不好的例子:
  • strawberry有几个r
是的,没错,还是两个r
  • 将“I love DeepSeek”的所有字母反过来写
是的,没错,字母反转不过来
但是,通过写代码就可以完美解决,不过要明确表述才可以。
  • 将“I love DeepSeek”的所有字母反过来写,通过写代码解决,并执行返回最终反转结果

写在最后

国内都在发力,强化学习也如火如荼了,赶紧补赶紧补。
现在压力来到qwen,我想看看deepseek和qwen谁先开出来,国内第一个开源o1类模型。
各位老板们,现在应该有信心了吧,赶紧造数据,超越openai o1不是梦。

(文:机器学习算法与自然语言处理)

欢迎分享

发表评论