OpenAI 发布新型音频模型,听起来比以往任何时候都更像人类
OpenAI发布了两款新的音频模型GPT-4o-transcribe和GPT-4o-mini-transcribe,旨在提升语音转文本的准确性,并引入可操控性文本转语音功能。此举为自然、直观的口语对话迈出了重要一步。
OpenAI发布了两款新的音频模型GPT-4o-transcribe和GPT-4o-mini-transcribe,旨在提升语音转文本的准确性,并引入可操控性文本转语音功能。此举为自然、直观的口语对话迈出了重要一步。
视频吸金,音频崛起成高效选择。音频广告通过播客、智能音箱等突破传统边界,成为品牌触达受众的新途径。其精准性、个性化和无缝融合特性使其成为最高效的广告预算之一。
Respeecher与Reality Defender合作开发先进音频深度伪造检测模型,旨在保护用户免受AI生成威胁。
苹果正在开发集成摄像头的AirPods,预计2026年发布。这些摄像头用于红外传感器和空中手势控制,提升空间音频体验,并有可能扩展到AR和VR领域。
加州公司Edge Impulse同意被高通收购,旨在增强其边缘人工智能应用生态系统。Edge Impulse简化了在嵌入式系统中创建AI和ML模型的过程,并已吸引了17万多名开发人员。此次收购预计将补充高通对物联网转型的战略方法,包括全面的芯片组路线图、统一的软件架构等。
NotaGen 是首个针对古典音乐交响乐的 AI 音乐生成模型,来自中央音乐学院、清华和北航的开发人员宣布其开源。模型涵盖基础版及增强版NotaGen-X,并在专业数据集上进行了微调,实现高度可控性和专业性,提升了古典音乐生成质量。
AudioShake发布Multi-Speaker,一款新型多说话者分离引擎,能精准提取独立音轨,在多个行业中释放创意潜能。
RecDot系列耳机通过AI功能颠覆传统无线耳机,支持实时会议记录、翻译及个性化提醒等功能,覆盖清晨通勤至运动场景,旨在成为智能生活中的重要工具。