大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题

腾讯&苏州大学团队提出新框架RLVR,使用基于生成模型的软奖励提升大模型在医学、化学等多学科的能力。研究还开源了奖励模型和数据集,并指出未使用思维链推理方法仍需深入研究。

港中文北大等联手,21万美金悬赏AI+机器人天才!推荐信、投资等你拿

ATEC2025科技精英赛由香港中文大学等主办,聚焦AI与机器人技术。设置软件算法和硬件设计双赛道,提供高达21万美元奖金,并邀请顶尖学者和技术领袖进行交流。报名截至4月25日,详情见www.ATECup.com。

DeepMind核心论文禁发6个月,Transformer级研究锁死!CEO:不满意就走人

DeepMind内部研究发布设限,因担心被竞争对手利用或让Gemini模型逊色。谷歌推行更严格的审查机制,生成式AI相关论文设定6个月禁发期。此举引发研究人员对学术自由的担忧。