RAG用于视频文章生成及东方语种及汉语方言识别Dolphin实现思路解析

今天是2025年4月3日，星期四，北京，天气晴。

先看一个关于大模型评测的事儿，有个大模型测试《Large Language Models Pass the Turing Test》(https://osf.io/jk7bw，https://arxiv.org/pdf/2503.23674，https://turingtest.live)，评估了四个系统（ELIZA、GPT-4o、LLaMa-3.1-405B和GPT-4.5），参与者需要在五分钟内与一个人类和一个AI系统进行对话，也就是每组参与者完成8轮对话，每轮对话中，一名评审员与一名人类和一名AI同时交流，并判断哪个是真正的人类。

设计了两种提示类型，无提示（NO-PERSONA）和有提示（PERSONA）。无提示提示仅包含基本的参与指导和信息，而有提示提示则包含了更详细的角色扮演指令，例如采用一个内向且熟悉网络文化的年轻人的角色。

结果呢很有趣，73%参与者将其误认为人类，远高于真人对照组的50%识别率，有趣的是，其发现，“人设提示”是关键因素，无人设时GPT-4.5胜率骤降至36-38%，添加人设后模型能展现内向性格、使用俚语和适当犯错，进而推出识别AI最有效方法是测试异常反应和探索知识盲区，而非闲聊日常或询问情绪体验，因为参与者也主要依赖语言风格和交互动态来判断AI的真实性。所以，测试是门艺术。

我们继续回到技术问题，这次是RAG和语音识别。

一个是RAG用于视频文章生成的方案WIKIVIDEO，其实现思路的核心也是对整个task-flow的设计，论文，就是如此。

另一个是面向语音识别的开源方案，尤其是针对支持东亚、南亚、东南亚和中东等东方语言，支持中国方言，如执行语音识别、语音活动检测(VAD)、分段和语言识别(LID)等功能，这些其实都是做数字人等应用的基础。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、RAG用于视频文章生成的方案WIKIVIDEO

RAG进展，用来做视频文章生成。从多个视频自动生成维基百科风格文章，也就是给定一个关于真实世界事件的请求、一个查询问题以及一组相关的视频，系统需要从视频内容中生成一篇文章，所有声明都必须基于视频的视觉、音频和/或OCR内容。

因此，可以看看这个工作，《WIKIVIDEO: Article Generation from Multiple Videos》，https://arxiv.org/pdf/2504.00939，提出了一种方案，通过迭代交互的方式，结合视频语言模型（VideoLLM）和基于文本的推理模型，从多个视频中提取信息并生成文章，代码在https://github.com/alexmartin1722/wikivideo，现在项目代码没开源，但可以看到数据集，在https://huggingface.co/datasets/hltcoe/wikivideo。

核心还是看两点。

一个是WIKIVIDEO数据集的构建过程。

WIKIVIDEO数据集基于MultiVENT 1.0和MultiVENT 2.0视频，并与MegaWika2数据集中的维基百科文章链接，包括五个步骤：

初始事件和文章选择，选择具有英语视频和相关联的英文维基百科文章的事件->文章声明分解，将维基百科文章中的每个句子分解为一组上下文化、原子子声明。->声明纠正，专家标注人员手动纠正分解的子声明，确保其原子性和对原文的忠实性。->声明归一化，将纠正后的子声明归一化，并在相关视频中标注每个子声明的支持情况（视觉、音频或OCR）。->文章重写，根据归一化的子声明及其对应的视频，重写维基百科文章，确保文章仅包含视频支持的信息。

最终数据集包含52个事件和近400个相关视频，每个事件都有专家撰写的参考文章。

一个是CAG方法的核心组件以及实现方式

具体实现上，涉及三个核心组件VideoLLM、基于文本的推理模型以及纯文本LL。首先，VideoLLM生成每个视频的通用摘要，提供低级别的场景描述和突出的屏幕文本。其次，推理模型根据查询和初始摘要提供相关性反馈。

如果推理模型认为初始摘要不足，它会生成新的提示请求VideoLLM生成更高级别的信息。这个过程是迭代的，直到推理模型对摘要满意为止。最后，使用VideoLLM生成的通用摘要和推理模型提供的重新提示摘要来生成最终文章。

在实验中，使用多种VideoLLMs，如LLaVA-Video-72B、VAST、InternVideo2.5-8B和QwenVL2.5-72B。推理模型使用DeepSeek-R1蒸馏的Qwen-32B，纯文本LLM使用Qwen2.5。

二、面向东方语言的语音大模型开源方案

关于小语种识别，尤其是东方语言的识别，如越南语、缅甸语等，其实是一个刚需。

例如，最近的工作《Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages》，https://arxiv.org/abs/2503.20212，开源了一个支持东方40个语种的语音识别模型，着实是不错的，具体语种在：https://github.com/DataoceanAI/Dolphin/blob/main/languages.md。

在模型功能方面，支持东亚、南亚、东南亚和中东的40种东方语言，同时还支持22种中国方言，中文语种支持22方言（含普通话），可以执行语音识别、语音活动检测(VAD)、分段和语言识别(LID)。

在训练数据方面，总时长21.2万小时，其中海天瑞声高质量专有数据13.8万小时，开源数据7.4万小时；同尺寸比whisper更好。

在模型设计方面，Dolphin在很大程度上沿用了Whisper和OWSM的设计方法，采用了联合CTC-Attention架构，编码器基于E-Branchformer，解码器基于标准Transformer。也针对ASR进行了多项关键修改，因为不支持翻译任务，并且不再使用先前的文本及其相关标记，但有一个重大改进是引入了两级语言标记系统，以便更好地处理语言和地区多样性，尤其是在DataoceanAI数据集中。第一个标记指定语言（例如，<zh>，<ja>），而第二个标记表示地区（例如，<CN>，<JP>）

在使用方面，Dolphin需要FFmpeg将音频文件转换为WAV格式。

import dolphin

waveform = dolphin.load_audio("audio.wav")
model = dolphin.load_model("small", "/data/models/dolphin", "cuda")
result = model(waveform)
# Specify language and region
result = model(waveform, lang_sym="zh", region_sym="CN")
print(result.text)

在下载地址方面，可以看Github：https://github.com/DataoceanAI/Dolphin，Huggingface：https://huggingface.co/DataoceanAI ，Modelscope：https://www.modelscope.cn/organization/DataoceanAI

参考文献

1、https://arxiv.org/pdf/2504.00939

2、https://arxiv.org/abs/2503.20212

（文：老刘说NLP）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

一、RAG用于视频文章生成的方案WIKIVIDEO

二、面向东方语言的语音大模型开源方案

参考文献

发表评论 取消回复

发表评论取消回复