喝点VC|a16z剖析2024年AI语音发展:产品数量激增、B2B垂直应用为重点
AI语音在2024年下半年迎来爆发式增长。模型开发进步简化了基础设施,使语音Agent延迟更低、性能更优。GPT-4o API价格大幅下调至$2.50/Million tokens。语音Agent市场渗透率上升,集成到更多产品中。早期应用主要集中在金融服务、BPO、保险、政府和医疗等领域。
AI语音在2024年下半年迎来爆发式增长。模型开发进步简化了基础设施,使语音Agent延迟更低、性能更优。GPT-4o API价格大幅下调至$2.50/Million tokens。语音Agent市场渗透率上升,集成到更多产品中。早期应用主要集中在金融服务、BPO、保险、政府和医疗等领域。
上海交大团队通过实验发现多模态数据对语言质量的影响有限,提出OmniAlign-V数据构建Pipeline,包含高质量的多模态数据,并在多个基准测试中验证了其有效性。
斯坦福大学OctoTools框架通过标准化工具卡、规划器和执行器,无需训练即可显著提高LLMs处理复杂任务的能力,比其他方法平均准确率高出9.3%。
OpenAI 发布了新工具和 API,旨在简化构建 AI Agents 的过程,让开发者能更容易创建执行任务的智能体。这些新工具包括 Responses API、Web 搜索工具、文件搜索工具以及计算机使用工具等。
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
ViDoRAG 是一款专注于视觉文档的开源 RAG 系统,由阿里巴巴通义实验室联合中科大、上海交大推出。它通过多模态混合检索和多智能体迭代推理解决传统 RAG 方法在处理复杂视觉文档时的信息关联性不足和推理能力有限等问题。
本项目利用大语言模型生成故事视频,支持文本、图片及音频生成。后端使用Python+FastAPI框架,前端为React + Antd + Vite。通过设置环境变量启动后端服务,并在前端界面输入相关参数即可生成视频内容。