Nature:生成式 AI 与结构化音频数据用于公共卫生

在这项研究中,使用了关于个人经历新冠的转录视频来对变异株进行分类。O1大语言模型被用来总结这些转录内容,排除了与特定变异株相关但与疾病变化无关的日期、疫苗接种、检测方法等变量。这一步骤对于有效模拟在大流行早期部署模型是必要的,当时症状学的细微变化可能是疾病突变的唯一可行生物标志物。用于训练神经网络以预测说话者的变异株状态为“奥密克戎”或“奥密克戎之前”的嵌入式总结,得到了0.823的AUROC分数。这与基于二进制症状数据训练的神经网络模型进行了比较,后者的AUROC分数较低,为0.769。研究结果展示了大语言模型和音频数据在未来为卫生系统设计大流行管理工具中的价值。



引言


健康音频数据(“audiomics”)被认为是一种有前景的工具,有望推动数字医学的发展,可能实现低成本、非侵入性的临床任务方法,包括快速诊断和患者监测。然而,仍需开展大量工作来提高音频数据集的多模态性,这些数据集可能包括语音、语言和语言生物标志物(见表1)。既往的大多数研究,特别是在传染病医学和大流行病管理领域,主要侧重于使用标准化的音频数据来识别语音变化,从而丢失了自由口语中潜在的信息。


毫无意外,许多尝试构建用于 COVID-19 诊断任务的语音/声音 AI 模型。在一个例子中,通过独特的时间和频率域模式检测到了 COVID-19 的呼吸声。


表1 音频数据中关键信息源的描述


基于咳嗽声音训练的 AI 技术也已被部署在智能手机应用程序中用于 COVID-19 检测,二进制分类器能够根据电话通话中的脚本数据区分 COVID-19 语音和正常语音。在另一个例子中,有和没有 COVID-19 的无症状患者的语音的频谱特征产生了 70% 的真正阳性率,尽管这些模型是基于小数据集训练的。一个基于少量患者强制咳嗽录音训练的 CNN 模型能够以高灵敏度识别 COVID-19,即使在无症状受试者中也是如此。还有通过众包和在线数据挖掘创建 COVID-19 语音库的倡议。“Coswara” 是一个包含咳嗽声、呼吸声和朗读标准化脚本的语音数据库(由志愿者录制/上传)。样本被分为 COVID-19(自我报告阳性)和对照组。研究人员使用 Coswara 训练用于 COVID-19 检测和变异株分类的 AI 模型,通常在通常排除其他呼吸道疾病的二进制数据集上获得高准确率。然而,基于 “COVID 声音” 众包数据集训练的深度学习模型显示,仅语音模式在 COVID-19 筛查任务中表现不佳(0.61 的 AUC 分数)。COVYT 数据集包含来自社交媒体的与 COVID 相关的视频,以及来自同一批说话者的相应对照样本。然而,过去的 COVYT 研究没有考虑到阳性组和阴性组之间内容的显著差异。


尽管仍然相对罕见,但基于非结构化音频数据(如自由口语)训练的 AI 模型也在多种健康应用中显示出潜力,包括基于语音的临床评估。与标准化数据集不同,非结构化音频数据允许患者用自己的话更自然地交流健康状况。一个值得注意的研究领域是使用语音识别(即环境监听)自动生成电子健康记录。已经开发了多个 AI 速记员来转录和组织医生与患者之间的对话。随后由临床医生批准这些电子健康记录,这可能在减轻工作量的同时提高医疗记录的准确性和质量。AI 在非结构化音频数据(“自由口语”)上的应用还包括诊断任务,包括帕金森病和阿尔茨海默病等神经退行性疾病的诊断,以及失语症和构音障碍等语言障碍的诊断。


尽管有潜力,但许多先前的尝试由于依赖于小规模的二进制数据集而失败,产生了无法泛化的过拟合模型。由于这些挑战,在 COVID-19 大流行期间收集的语音/音频数据训练的 AI 模型并未产生任何可量化的益处。基于报告的症状训练的简单筛查模型被发现同样有效。


在本报告中,为涉及非脚本、现实世界音频数据的任务开发了一个流程,并与基于表格形式的基本症状数据训练的算法进行了比较。本研究应用了大型语言模型(LLMs)和弱监督深度学习方法,基于从在线视频中提取的总结音频转录本进行 COVID-19 变异株分类。变异株分类是大流行管理的关键组成部分:病毒株的差异被证明与传染性和严重性有关。与其他依赖于实验室结果或图像的诊断方法相比,基于非结构化音频数据训练的 AI 工具可能对卫生系统更具成本效益,同时也能提供比基于二进制症状数据训练的模型更细微的见解。贡献如下:


  • 1. 开发了一个实用的流程,可以在大流行的早期阶段实施。实验旨在模拟未来健康危机初期可能出现的情况。使用 LLM 驱动的总结来快速策划数据集,从而能够在 CPU 上快速训练变异株分类模型。本研究的结果展示了涉及现有通用 AI 工具的应用程序接口(API)和可以部署在本地设备上或使用最少云资源的定制小型模型的混合数字健康系统的价值。

  • 2. 通过非结构化音频数据对病毒变异株进行分类。在这项神经网络模型的新应用中,基于说话者报告的症状和音频转录本中的其他健康相关信息进行预测,而不依赖于日期、疫苗接种状态、既往感染或其他可能表明变异株状态但与 COVID-19 病毒的任何变化没有因果关系的因素。在非结构化音频数据上训练后,神经网络的表现优于基于症状的二进制表示训练的类似模型。该系统(在模拟新出现的大流行中)的表现与涉及数字调查数据的大型研究的结果相匹配,进一步显示了非结构化音频数据的潜在价值。未来的系统可能会围绕自由口语音频录音构建,以补充来自有限电子健康记录或其他传统信息收集机制的数据——同时提供相关声学特征中发现的额外见解。


与传统语音 AI(通常仅依赖于基频或抖动等声学特征)相比,本报告中介绍的系统旨在利用描述 COVID-19 体验的说话者录制的非脚本音频数据中的语言信息。这样的系统可以在众包数据上进行训练,并对未来大流行情况下的大量音频数据进行推理,有效支持卫生系统。

结果


在本研究中,O1大语言模型对COVID-19病例的转录描述进行了总结,去除了可能与特定流行变异株同时出现但与疾病病理变化无关的噪声和变量引用。这有助于准确模拟早期危机场景,在这种场景中,只有症状信息可用于训练紧急部署的AI模型。随后,将大语言模型生成的总结以词云的形式进行可视化,以识别数据集中可能对理解AI模型预测结果有价值的广泛症状学趋势。表2包含了一个用于获取这些见解的总结音频转录本的具体示例。


表2 用于COVID-19变异株可视化和分类的转录音频总结示例


在图1(左侧),结果显示在“奥密克戎之前”队列中,大语言模型(LLM)生成的总结经常提到诸如味觉和/或嗅觉丧失等症状,这与大规模研究的结果相一致。许多“奥密克戎”总结中反复出现的关键词是上呼吸道症状,如咳嗽和喉咙痛——这种转变也与现有科学文献中的发现相匹配(图1——右侧)。


图1所示的结果强调了自由口语音频数据在捕捉临床相关信息方面的价值。尽管使用的是来自在线来源的低成本、非结构化数据,但实验结果与涉及标准化数据前瞻性收集的大规模研究结果相一致。


图1:转录摘要可视化结果。


在进行可视化之后,研究人员训练了神经网络,以使用转录本中健康信息的嵌入式表示来执行变异株分类,排除了可能偶然指示变异株的数据(例如日期或检测方法)。采用嵌套的k折交叉验证来评估模型的性能。在多次实验迭代中,音频AI模型获得了平均AUROC分数为0.823,表明信号具有中等的稳健性。当将灵敏度值校准为0.80时,模型的特异性为0.70(见表3)。这些结果是使用在单个CPU上训练的神经网络模型获得的。训练神经网络的平均时间为每个分割约3.7秒(推理时间可以忽略不计)。


第二个神经网络,基于症状存在与否的二进制数据向量进行训练,结果得到了较低的AUROC分数0.769,特异性为0.60。


表3  基于总结音频数据和指示症状存在与否的二进制向量训练的神经网络模型比较


此外,临床环境中可能会出现实施障碍。例如,急诊科通常人满为患,环境嘈杂混乱,这可能会降低收集清晰、不间断音频数据的可能性。未来的工作应该包括对包含详细医学术语的嘈杂录音进行语音处理模型的基准测试和微调。这类特定领域的数据集与强大的学习目标相结合,可能会提高在急诊科等环境中的性能。


总之,在生成式人工智能、深度学习和多模态音频数据的背景下,数字健康研究相对较少。然而,此类数据的广泛可用性以及像o1这样的模型的高级功能,引发了重要的新研究问题。随着音频/视频应用的迅速普及,非脚本音频可能比传统数据更易获取且本质上更具多样性,从而产生更具临床相关性的见解。此外,新的基于LLM的预处理和标准化方法可能会增强与传统电子健康记录的互操作性,扩展多模态性。即使没有金标准注释,这一初步努力所取得的结果也值得在有未满足需求的公共卫生环境中进一步评估,特别是在那些对其他类型数据收集能力有限的系统中。尽管存在局限性,但这项工作突出了非脚本音频数据在使自动化任务能够应对COVID-19之外的公共卫生挑战方面的潜力。


方法


本研究已获得国家卫生研究院机构审查委员会的批准。图2展示了人工智能流程的数据预处理和建模组件。所有基础模型均通过OpenAI API访问。


数据集策划


为了便于变异株分类,首先手动验证了关于COVID-19经历的YouTube视频,以确保说话者明确确认了当前或之前的阳性检测结果,并讨论了与疾病相关的经历/症状。那些仅简要提及阳性检测但没有其他健康相关信息的视频被排除在研究之外。然后,根据说话者报告的疾病日期或视频元数据所指示的日期,将视频分为“奥密克戎”(作为模拟中的新出现变异株)或“奥密克戎之前”。选择这种二元标记方法是因为奥密克戎之前的COVID-19变异株相对相似。奥密克戎变异株在症状表现和传播性方面发生了变化。2021年11月26日,世界卫生组织将奥密克戎指定为“关注变异株”,并估计到2021年12月底,它已成为美国的主要变异株。不久之后,奥密克戎被确定为全球主要变异株,在2022年2月之后,它占GISAID共享序列的98%以上。标记为“奥密克戎”的视频是在2021年12月1日或之后录制的,包括原始奥密克戎变异株及其亚变异株。2021年11月30日或之前录制的视频被标记为“奥密克戎之前”(见表4)。


表4 本研究中定义的非结构化音频数据队列的纳入标准


自动语音识别


使用OpenAI的Whisper-large模型进行自动语音识别,为每个视频生成了一份转录文本。Whisper在基于Mozilla Common Voice数据集的基准任务中的错误率仅为11%,这可能表明其在多样化的医疗保健环境中具有可靠性。对于在多个视频中描述单一COVID-19经历的说话者,按照时间顺序将转录文本拼接在一起,以确保在统一的总结中保留时间背景。



图2:用于预处理和建模非结构化音频数据的人工智能流程概览。


转录总结


为了降低维度和噪声,指示一个大型语言模型(LLM)总结说话者描述的COVID-19病例(见表5)。以段落形式生成总结,以保留可能包含更细微疾病生物标志物的描述性语言(例如,“我的非常疼痛的喉咙使我难以吞咽水”,而不是“喉咙痛”)。o1模型和提示均未针对此任务进行微调,这反映了在可能无法通过高级方法(即,超出提示工程)改进现有的生成式人工智能工具的情况下(因为缺乏必要的计算能力和专业知识),实际应用中的情况。


如表5所示,模型被指示排除与特定主要变异株更频繁共现但与健康状况无关的变量,包括日期、变异株名称、再感染状态、疫苗接种状态、检测方法和药物。例如,侧流装置(LFDs)的使用高峰期出现在2022年初,当时奥密克戎是主要变异株。因此,在奥密克戎队列(2021年11月30日之后)的YouTube视频中提到“快速检测”的可能性更高。


然而,LFDs使用增加是由于技术创新和检测计划的扩大,而不是COVID-19的变化。在奥密克戎浪潮期间,再感染也更为常见,部分原因是随着时间推移免疫力下降以及在取消预防措施后暴露增加——这些因素与疾病本身无关。采取这一预处理步骤是为了确保准确模拟新出现公共卫生危机中的实时AI使用。在这种情况下,非结构化音频数据的临床可靠性最好根据捕捉细微疾病表型的能力来评估。由于YouTube视频中信息密度的高变异性,模型还被赋予了决定转录本包含的健康信息不足的选项,从而降低了训练数据中噪声的风险。




表5 用于COVID-19音频转录本的LLM驱动总结的提示


使用新发布的“思维链”模型o1 LLM来总结转录本,在去除可能与变异株状态共现的术语时达到了完美的准确率(见表5)。这与仅在响应指令前应用单一推理迭代的GPT-4o的性能形成对比。GPT-4o生成的总结集中包含了16个表5中的词汇或短语实例,其中包括13次对既往感染的引用。这些信息可能表明了稍后出现的变异株(即奥密克戎),并可能破坏仅症状学数据易于获得的新兴健康危机的模拟。


数据二值化


还制定了提示以进一步减少音频转录总结。o1模型被指示提取与17种常见COVID-19症状存在与否相关的二进制信息(见表6),这与之前证明与音频AI方法表现相似的“症状检查”方法所使用的数据相呼应。在这里,LLM为每个总结返回了一个二进制列表,代表COVID-19感染的症状学。这类数据并非音频独有,也可以从传统的电子健康记录或简单的调查中得出。


变异株分类


No.1

嵌入式总结的分类

为了便于变异株分类,文本嵌入模型(text-embedding-3-large,由OpenAI提供)将总结编码成表示向量。选择该模型是因为其知识截止日期设定在2021年9月(奥密克戎变异株出现之前),这有助于确保在模拟中使用音频AI模型识别新兴疾病生物标志物的有效性,该模拟是在建立强大的知识库之前进行的。随后,训练神经网络以预测说话者感染的COVID-19变异株。为了确保与边缘应用的兼容性,本研究中使用的神经网络模型仅有787,202个可训练参数——小于大多数用于自然语言处理或语音/语言任务的AI算法。因此,CPU足以用于训练和评估这些模型。除了LLM API提供商所使用的资源外,本研究无需额外的高性能计算资源。采用交叉熵损失函数在每个小批量数据(批量大小为8)后评估模型误差。随后使用Adam优化算法(学习率为1e-3)进行权重调整。通过基于验证损失和耐心参数(3)的早期停止协议来确定模型训练的程度。如果验证损失在连续三个周期内没有下降,则结束训练。采用嵌套的k折交叉验证来评估模型的性能和泛化能力。


表6 用于音频转录本中COVID-19症状引用的LLM驱动二值化的提示


No.2

症状评估模型


图3:用于二值化非结构化音频数据的流程概览。


为了进行比较,第二个神经网络模型在二值化症状向量(见表6)上进行训练,旨在复制用于“症状检查”的传统数据(见图3)。如上所述,使用交叉熵损失函数在小批量数据上训练模型。


(文:AI音频时代)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往