AI音频时代
AI学习如何连接视觉和声音,无需人工干预
研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。
谷歌发布 Veo 3 将AI视频的音频生成水平提升到近专业高度
在Google I/O 2025开发者大会上,谷歌发布了先进的AI视频生成模型Veo 3,它能够同时生成带有声音的视频。该模型目前仅限美国Gemini Ultra订阅者和Vertex AI的企业用户使用。
Stable Audio Open Small 开源,为手机实现音频生成部署
Stability AI与Arm联合发布了一种名为Stable Audio Open Small的小型文本到音频模型,能够在智能手机上运行并实现约7秒生成11秒立体声音频的效果。该模型基于ARC技术开发,参数量减少至3.41亿,内存使用量降至3.6GB,适合移动设备使用。
Cirrus Logic 和 Compal Electronics 联手开创笔记本电脑 AI 音频增强技术
Cirrus Logic 与广达电脑合作开发人工智能技术解决笔记本电脑音频质量问题,旨在提升用户体验和生产一致性。
AI感应技术使游戏耳机再突破
Audioscenic与飞利浦(Philips)和恩智浦半导体(NXP Semiconductors)合作推出了首个结合AI位置感应技术的游戏音响条参考设计。这一突破性解决方案解决了玩家在游戏时同时享受沉浸式音频体验和清晰语音聊天之间的平衡问题。
由人工智能驱动的水下无人机可通过声音识别水下威胁
英国国防人工智能公司Helsing开发的Lura和SG-1 Fathom技术旨在对水下威胁进行持续监视。该系统包括一种名为Lura的人工智能软件,能够探测比其他系统安静十倍的声音,并且能在人类速度40倍的情况下区分特定船只。
Sonos推出AI语音增强应用帮助听力障碍人士
Sonos推出语音增强解决方案,通过AI提升听力受损人群观看电视时的对话清晰度。该功能允许用户根据需求调整对话清晰度级别,最高级别专门设计用于听力受损者。
谷歌NotebookLM推出AI播客的50多种多语言音频概述
Google扩展其实验性NotebookLM产品线,使其AI摘要功能支持超过50种语言。此更新标志着谷歌在增强AI工具可访问性和拓展多语言市场方面的重要一步。