微软将能理解音频、视频和文本的生成式 AI 技术价格下调 60%

微软正在将其在 Azure 上为视频、文本、语音和图像提供更好理解与洞察的生成式人工智能（GenAI）技术的价格下调 60%，以帮助用户更好地理解和分析多媒体内容。

Azure AI 内容理解功能可以分析多媒体文档中的信息，提取洞察，并验证信息的真实性。组织可以利用这些洞察来构建人工智能代理。

“无论你是从文档中提取布局，还是识别视频中的动作，新的定价结构为许多典型任务提供了高达 60% 的成本节省，并且让你对支出有更多控制权，” 微软在周一的博客文章中表示。

Azure AI 产品经理文诺德·库尔帕德（Vinod Kurpad）在最近的 Build 大会上关于该技术的演讲中提到，该功能可以将各种文档中的非结构化信息转化为人类工作者更容易使用的数据。

“它旨在处理包括文档、图像、音频和视频在内的多模态数据，并将所有这些多模态和混合模态内容转化为可操作的洞察，” 库尔帕德说。

用户可以将音频、视频、图像或文本输入该工具，它将从文档中提取内容。他们还可以设置模板，指定要提取和理解的信息类型以及要生成的总结类型。分析器会提供一个置信度评分，以验证从文档中提取的理解是否准确。

该功能还可以用于从音频和视频文件中进行情感分析，这可用于客户支持。这些功能可以集成到员工已经使用的代理中，以自动化工作流程。

Azure AI 内容理解是一个从开始到结束的三步流程，每一步根据内容类型和与文档的互动程度单独定价。这些步骤包括内容提取（包括说话人识别、身份验证以及布局和结构）、字段提取（包括调整和 GenAI 处理）以及上下文化（包括验证信息）。

例如，微软表示，从一份 1000 页的文档中提取内容的成本为 5 美元，而之前为 13 美元。一份 1000 页文档的字段提取成本现在为 14.14 美元，而旧定价模式下为 30 美元。

视频的 AI 内容理解现在每小时 3.83 美元，包括内容提取、GenAI 处理和上下文化。

这种定价模式基于代币，谷歌和 OpenAI 也向开发者提供代币。“我们已经重新调整了文档、音频和视频分析的付费方式——从固定的基于字段的定价转变为灵活的基于代币的系统，让你只需为你所使用的部分付费，” 微软表示。

这项技术可以根据金融行业、合规和医疗保健等专业垂直领域的代理进行定制。

ASC Technologies AG 已经开始使用这项技术来分析所有 Microsoft 365 通信，包括电子邮件和聊天。德国公司首席工程官托比亚斯·芬格勒（Tobias Fengler）在 Build 大会上表示，结果的交付速度提高了五倍，并且成本更加清晰。

“我们的研发工作减少了 30%，因为我们需要处理的服务更少了，而且我们已经实施了一些新的代理人工智能工作流程，” 芬格勒说。

微软在金融领域的一位客户 Ramp 使用内容理解功能，将收据、账单和多行发票自动转化为结构化数据，演讲者表示。

（文：AI音频时代）