R1复现基座选用Qwen or Llama？兼看Audio-Reasoner多模态语音推理思路

今天是2025年3月7日，星期五，北京，天气阴。

今天，我们来看AI内容的影响面及R1复现基座的一些解释，并看看多模态语音大模型进行R1的尝试。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、AI内容的影响面及R1复现基座的一些解释

1、AI内容对wikipedia的影响面

看到一个工作，Wikipedia in the Era of LLMs: Evolution and Risks，https://arxiv.org/pdf/2503.02879，评估了LLM如何影响与维基百科相关的各种自然语言处理(NLP)任务，包括机器翻译和检索增强生成(RAG)，研究结果和模拟结果表明，维基百科的文章受到了LLM的影响，在某些类别中的影响约为1%-2%。

2、关于R1复现基座的一些解释

deepseek r1发布后，复现过程中很多人发现某些模型（基本都是qwen系列）能够在强化学习（RL）训练中显著提升性能，而有些很难（如Llama系列），《Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs》，https://arxiv.org/pdf/2503.01307，https://github.com/kanishkg/cognitive-behaviors，分析了原因。

其认为有几种能力：验证能力(系统性检查错误)；回溯能力(在检测到错误时明确修订方法)；子目标设定能力:(将复杂问题分解为可管理的步骤)；反向链式推理能力:(从期望的结果出发，逆向推导初始输入)。

这个实验是很有趣的。

数据上，使用Countdown游戏作为主要测试平台，Countdown是一个数学谜题，要求玩家使用基本算术运算组合一组输入数字以达到目标数字。

实验上，选择两个基础模型Qwen-2.5-3B和Llama-3.2-3B进行对比。使用VERL库和TinyZero实现进行强化学习实验，训练模型使用PPO算法进行250步训练。

样本选择上，训练和评估数据集来自Countdown游戏，包含3位数和4位数的问题，确保试验的多样性和一致性。

参数配置上，使用PPO算法进行训练，设置演员学习率为1e-6，评论家学习率为1e-5，KL系数为0.001，总训练轮数为15。

结论上，其一，Qwen模型在训练过程中自然表现出验证和回溯等推理行为，而Llama模型缺乏这些行为。Qwen在Countdown任务中的表现显著优于Llama；其二，通过预训练数据增强，Llama的性能得到了显著提升，达到了与Qwen相似的水平，这表明通过精心策划的预训练数据可以成功诱导出必要的认知行为。

具体的，如下：

如图1所示，Qwen-2.5-3B和Llama-3.2-3B模型在Countdown（倒计时，可能是一个任务名称）上结合强化学习（RL）的对比分析。

（顶部）(a)两种模型在Countdown任务中的性能得分；(b)在整个强化学习训练过程中响应长度的变化情况。

（中间部分）随着训练步数的增加，Qwen-2.5-3B（左）和Llama-3.2-3B（右）特定推理特征的出现情况。

（左下角）(a)当基础模型用期望推理行为的合成数据集进行预训练时在Countdown任务中的表现；(b)强化学习对经过预训练的Llama3.2-3B推理行为的不同影响：回溯和验证的增强与反向链接和子目标设定的抑制形成对比。

（右下角）通过在精心策划的OpenWebMath数据集上进行微调来教授推理行为的比较效果，表明通过对Llama进行有针对性的训练可以使其推理能力提高到与Qwen相当的水平。

二、关于R1用于音频领域工作Audio-Reasoner

关于R1用于多模态领域，这次是用于音频领域。

之前的工作包括链式推理（CoT）在多模态模型中的应用，如Visual-CoT、LLaVA-Reasoner和MAmmoTH-VL等，主要用于大规模数据集和多模态推理在图像和视频任务，但在音频领域，CoT的应用仍处于起步阶段，现有方法在复杂查询上的表现不佳。

例如，音频语言模型（LALMs）如Audio Flamingo、SALMONN和Qwen2-Audio在某些方面取得了进展，但这些模型在复杂推理任务中仍然存在局限性，主要是由于现有音频数据集的简单性。

所以，可以看一个工作，R1结合语音领域 **《Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models》(https://arxiv.org/abs/2503.02318)**， https://github.com/xzf-thu/Audio-Reasoner,https://xzf-thu.github.io/Audio-Reasoner/

先看数据构成，这个基于推理能力，包括如下几个：

基于声音的问题回答，模型识别和分析声音特征，将其置于用户查询的背景中，以得出经过推理的回应；

基于言语的问题回答，模型识别说话者的音色，转录言语内容，并逐步处理问题以确定合适的答案；

语音情感识别（SER）和语音转文字翻译（S2TT）， 这些专门任务要求模型将语音识别与情感分析和语言翻译相结合，形成一个结构化的推理过程；

基于音乐的问题回答， 由于音乐高度抽象，模型首先分析基本属性，如音调、节奏和情感，然后根据用户的查询进行流派分类和更深入的推理。

再看训练构成，模型的训练框架包括四个步骤： 规划（Planning）:分析查询，识别关键问题组件，并制定推理步骤->标题提取（Captioning）：从输入中提取相关的多模态内容，以丰富推理过程->推理（Reasoning）：基于提取的内容，执行系统化的逐步推理->总结（Summary）： 将推理过程合成为简洁、上下文相关且精确的最终响应。

模型输入包括音频信号和文本查询，输出包括结构化推理过程（CoT）和最终响应，模型的训练目标是最小化生成CoT和最终响应的概率分布的对数似然损失函数。

Audio-Reasoner基于Qwen2-Audio-Instruct，总共包含84亿参数。训练过程使用了ms-swift框架，采用监督微调和全参数调整，使用了最大学习率为1e-5，并在整个CoTA数据集上对模型进行了单次迭代训练。

参考文献

1、https://github.com/xzf-thu/Audio-Reasoner

2、https://arxiv.org/pdf/2503.02879

3、https://arxiv.org/pdf/2503.01307

（文：老刘说NLP）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

一、AI内容的影响面及R1复现基座的一些解释

二、关于R1用于音频领域工作Audio-Reasoner

参考文献

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复