AI学习如何连接视觉和声音,无需人工干预​

研究人员开发出一种新方法提高AI学习多模态信息的能力,使机器能够自动检索视频和音频内容,并有望在新闻、电影制作等领域发挥作用。该方法通过改进训练方式和技术架构提高了模型对音频与视觉数据的对应关系理解能力。

Stable Audio Open Small 开源,为手机实现音频生成部署

Stability AI与Arm联合发布了一种名为Stable Audio Open Small的小型文本到音频模型,能够在智能手机上运行并实现约7秒生成11秒立体声音频的效果。该模型基于ARC技术开发,参数量减少至3.41亿,内存使用量降至3.6GB,适合移动设备使用。

AI感应技术使游戏耳机再突破

Audioscenic与飞利浦(Philips)和恩智浦半导体(NXP Semiconductors)合作推出了首个结合AI位置感应技术的游戏音响条参考设计。这一突破性解决方案解决了玩家在游戏时同时享受沉浸式音频体验和清晰语音聊天之间的平衡问题。

由人工智能驱动的水下无人机可通过声音识别水下威胁

英国国防人工智能公司Helsing开发的Lura和SG-1 Fathom技术旨在对水下威胁进行持续监视。该系统包括一种名为Lura的人工智能软件,能够探测比其他系统安静十倍的声音,并且能在人类速度40倍的情况下区分特定船只。