

Nvidia在2020年轻松震撼了我们,当时其显卡通过一款免费应用程序获得了从音频通话中删除几乎所有背景噪音的能力,而现在该公司再次做到了这一点。我的同事兼The Verge高级新闻编辑Richard Lawler刚刚试用了Nvidia最新发布的“Studio Voice”功能,该功能搭载在他的RTX 3070显卡上——结果让他那款Logitech网络摄像头的糟糕内置麦克风听起来竟然相当不错。
来听听效果:
你首先会听到的是Richard使用他的播客麦克风的声音,然后是Logitech C922网络摄像头麦克风的糟糕音质,最后是开启Nvidia功能后的网络摄像头麦克风效果。
这是免费Nvidia Broadcast应用程序更新的一部分,另一个新功能叫做“虚拟主光”(Virtual Key Light),不过在我们的首次测试中,这个功能的效果稍显一般。它本应“提供均匀的照明,就像物理主光在定义一个人的形态和轮廓一样。”以下是Richard使用该功能前后的对比图:


最后——没错,这确实有点吓人——Nvidia仍然允许你通过深度伪造技术让你的眼睛始终看向摄像头,以下是Richard结合新的虚拟主光功能展示的效果:

从技术上讲,Nvidia表示这些功能需要RTX 4080或RTX 5090显卡,并且“不推荐用于游戏”,我们猜测这是因为它们对GPU的负载很大。“虚拟主光似乎让我的3070显卡达到了极限,”Richard说道。“但语音功能确实有效,只是由于它占用了大量显存,我无法同时玩游戏。”

Nvidia表示,此次更新还“通过背景噪音消除功能提高了语音质量,为‘眼神接触’功能增加了注视稳定性和细微的随机眼球运动,使其看起来更自然,并通过虚拟背景功能改善了前景和背景的分离效果。”你可以在这里找到Nvidia Broadcast应用程序。

尽管Nvidia的“Studio Voice”和“虚拟主光”功能在初步测试中展现了令人惊叹的效果,但这些技术背后仍存在一些值得探讨的挑战与争议。例如,深度伪造的“眼神接触”功能虽然解决了视频会议中目光游离的问题,但也引发了隐私和伦理讨论——当AI可以随意操控人的面部表情时,如何防止技术被滥用?Nvidia在发布说明中强调,这些工具仅限个人非商业用途,但显然,这一领域的监管仍需行业和政策的共同探索。
此外,RTX显卡的高性能需求也成了一道门槛。对于普通用户而言,升级到RTX 4080或5090显卡的成本并不低,而功能对GPU资源的占用可能限制多任务处理能力(比如边游戏边开会)。不过,Nvidia似乎瞄准了专业创作者和远程办公的高端市场,尤其是在后疫情时代,视频会议和内容制作需求持续增长,这类AI驱动的“生产力增强工具”或许会成为硬件的差异化卖点。

但其竞争对手并未坐视不理。AMD近期也在其显卡驱动中加入了类似的背景降噪功能,而软件厂商如Adobe、OBS等也在通过AI插件优化音视频处理效率。未来,这场“算力+算法”的竞赛或将进一步加速,推动消费级硬件在实时AI处理上的性能突破。
尽管Richard的测试显示Logitech老旧麦克风“起死回生”,但仍有用户反馈,在某些复杂环境(如键盘敲击声、宠物叫声)中,降噪算法会误删人声细节。Nvidia表示将通过后续更新优化模型,但这也提醒我们:AI不是万能药,技术的成熟仍需时间和数据的积累。
无论如何,Nvidia再次证明了GPU在AI应用中的无限可能——从游戏到创作,再到重塑人类的数字交互方式,显卡正在重新定义“生产力工具”的边界。
(文:AI音频时代)