GPT-4o归档 - 第5页共9页

喝点VC｜a16z剖析2024年AI语音发展：产品数量激增、B2B垂直应用为重点

下午4时 2025/03/13 作者 Z Potentials

AI语音在2024年下半年迎来爆发式增长。模型开发进步简化了基础设施，使语音Agent延迟更低、性能更优。GPT-4o API价格大幅下调至$2.50/Million tokens。语音Agent市场渗透率上升，集成到更多产品中。早期应用主要集中在金融服务、BPO、保险、政府和医疗等领域。

下午4时 2025/03/12 作者量子位

上海交大团队通过实验发现多模态数据对语言质量的影响有限，提出OmniAlign-V数据构建Pipeline，包含高质量的多模态数据，并在多个基准测试中验证了其有效性。

下午12时 2025/03/12 作者新智元

斯坦福大学OctoTools框架通过标准化工具卡、规划器和执行器，无需训练即可显著提高LLMs处理复杂任务的能力，比其他方法平均准确率高出9.3%。

上午8时 2025/03/12 作者 APPSO

OpenAI 发布了新工具和 API，旨在简化构建 AI Agents 的过程，让开发者能更容易创建执行任务的智能体。这些新工具包括 Responses API、Web 搜索工具、文件搜索工具以及计算机使用工具等。

下午4时 2025/03/07 作者新智元

OmniParser V2通过更大规模的数据集训练，提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异，平均准确率达到39.6%。

下午4时 2025/03/06 作者 PaperWeekly

里的精妙布局，再到医疗档案中的多维数据展示，这些富含视觉元素的文档，不仅仅是简单的文字堆砌，而是融合

下午11时 2025/03/04 作者 APPSO

ChatGPT 在生成玫瑰花图像时遭遇限制，但通过改变描述方式如使用复数形式、避开直接提及‘玫瑰’等方式，可以绕过这些限制成功生成。

下午11时 2025/03/04 作者多知

字节跳动发布AI编程工具Trae国内版，支持切换不同模型，宣称是国内首个AI原生IDE，具备智能问答、代码补全和自定义功能。

上午8时 2025/03/04 作者开源星探

ViDoRAG 是一款专注于视觉文档的开源 RAG 系统，由阿里巴巴通义实验室联合中科大、上海交大推出。它通过多模态混合检索和多智能体迭代推理解决传统 RAG 方法在处理复杂视觉文档时的信息关联性不足和推理能力有限等问题。

下午12时 2025/03/02 作者 GitHubStore

本项目利用大语言模型生成故事视频，支持文本、图片及音频生成。后端使用Python+FastAPI框架，前端为React + Antd + Vite。通过设置环境变量启动后端服务，并在前端界面输入相关参数即可生成视频内容。