大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

腾讯&苏州大学团队提出新框架RLVR,使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集,并指出未使用思维链推理方法仍需深入研究。

Stable Diffusion 创始人:DeepSeek 没有抄袭!

开源派掌门人Emad Mostaque批评DeepSeek依赖OpenAI蒸馏技术,并指出其R1-Zero模型通过生成数据自我提升。他质疑OpenAI数据影响,认为DeepSeek在思维链方面优于闭源竞争对手。这场争论反映了开源生态与闭源巨头的权力争夺和AI进化路径的分歧。

DeepSeek危及美国国家安全?火爆海外开源社区,衍生模型超670个

国产AI模型DeepSeek-R1在Hugging Face开源社区迅速流行,下载量超70万次,引发美国海军和政府关注。其衍生模型数量每日增长30%,热度持续攀升。谷歌前CEO称这是全球AI发展的重要转折点,并推动Meta、Hugging Face等机构模仿DeepSeek的开发策略。