强化学习数据合成框架SynLogic及语音大模大模型评估

2025年5月29日,北京晴。文章介绍了大模型推理及语音模型评估进展和数据合成框架SynLogic的最新情况,包括DeepSeek-R1更新、LALM-Evaluation-Survey项目以及用于生成多样化的逻辑推理数据的SynLogic框架。

实测炸裂!DeepSeek-R1-0528火力全开,国产AI首次正面刚Claude 4!

DeepSeek-R1-0528模型在复杂推理任务中的表现大幅提升,准确率从70%提升至87.5%,代码生成能力增强,整体性能接近OpenAI大模型。新版模型代码生成效率高、交互体验好、长文本处理能力强。

实测新版DeepSeek-R1-0528,完全不输Claude 4

临近下班时,DeepSeek发布了一则通知,宣布其R1模型完成小版本试升级,并邀请开发者进行测试。实测显示,新版本具有强大的编程能力及高级感的设计,能够快速生成各种前端界面和计算工具。总体而言,DeepSeek-R1-0528的性能表现超出了Claude 4和Gemini 2.5 pro的表现水平。

「R1时刻」降临!港中文MMLab定义文生图新范式,彻底告别“无脑画图”

最近的大语言模型在数学和编程等领域展示了强大的推理能力,通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中,提出了两种不同的层次的思维链(CoT):Semantic-CoT负责设计图像的整体结构,而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT,并引入多个视觉专家模型作为奖励模型来评估生成的图片质量,最终提出了一种新的文生图模型T2I-R1,显著提高了模型生成符合人类期望的结果的能力。

推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降

论文提出SCoT(推测性思维链),通过小型模型快速生成多个解题草稿,大型模型审核并选择最优解或重新编写。这种协作式推理方法能显著提升速度和准确率,同时降低成本、增加灵活性,并且代码开源便于应用。