语音克隆人工智能技术近年来取得了显著进展,许多服务仅需几秒钟的样本音频就能有效模仿一个人的语调和说话风格。这种技术的快速发展带来了诸多便利,例如在语音助手、有声读物和虚拟主播等领域的广泛应用。然而,其潜在的风险也引发了广泛关注。

1
去年民主党初选事件引发关注
去年民主党初选期间,一个假乔·拜登的自动语音电话骚扰选民,告诉他们不要投票,这一事件成为了一个关键转折点。承认策划这一计划的政治顾问被罚款600万美元,美国联邦通信委员会此后禁止了人工智能生成的自动语音电话。这一事件凸显了语音克隆技术可能被恶意利用的风险,尤其是在政治和社会领域。

2
大多数语音克隆工具存在安全漏洞
一项针对六种领先的公开可用人工智能语音克隆工具的新调查发现,其中五种的安全措施很容易被绕过,使得未经授权克隆一个人的声音变得轻而易举。《消费者报告》的调查揭示了这些工具在防止未经授权的语音克隆方面的薄弱环节。
3
深度伪造音频检测的困境
深度伪造音频检测软件通常难以区分真实声音和合成声音。随着语音克隆技术的不断进步,合成声音的质量越来越高,这使得检测变得更加困难。这种技术的滥用可能导致虚假信息的传播,对个人隐私和社会信任造成严重威胁。

4
行业缺乏监管与自我约束
生成式人工智能模仿人类的特征,如外貌、写作和声音,是一项新兴且迅速发展的技术。然而,该行业几乎没有联邦法规。目前行业内的大多数伦理和安全检查都是自我约束的。拜登曾在2023年签署的关于人工智能的行政命令中提出了一些安全要求,但唐纳德·特朗普上台后撤销了该命令。这种监管的缺失使得语音克隆技术的滥用风险进一步增加。
5
语音克隆技术的工作原理
语音克隆技术通过获取一个人说话的音频样本,然后将其扩展为合成音频文件来工作。如果没有安全措施,任何注册账户的人都可以简单地上传个人说话的音频,比如来自TikTok或YouTube视频的音频,并让该服务模仿他们。这种技术的易用性使得未经授权的语音克隆变得非常容易。

6
各语音克隆服务的安全措施
-
ElevenLabs、Speechify、PlayHT和Lovo:这四项服务仅需勾选一个框,声明被克隆声音的人已授权即可。这种简单的授权方式很容易被绕过,无法有效防止未经授权的语音克隆。
-
Resemble AI:要求实时录制音频,而不是允许人们直接上传录音。然而,《消费者报告》通过简单地播放电脑上的音频录音轻松绕过了这一限制。
-
Descript:是唯一一个相对有效的服务,它要求潜在的克隆者录制一条特定的同意声明,这很难通过其他服务进行克隆来伪造。
7
服务的可获取性与成本
这六种服务均通过其网站向公众提供。其中,Eleven Labs和Resemble AI创建定制语音克隆需要付费,分别为5美元和1美元。其他服务则完全免费。这种低成本甚至免费的获取方式,使得语音克隆技术更加容易被滥用。

语音克隆技术的快速发展带来了诸多机遇,但同时也带来了严重的伦理和安全挑战。目前,大多数语音克隆工具的安全措施都很容易被绕过,这使得未经授权的语音克隆变得轻而易举。随着技术的不断进步,行业需要加强监管和自我约束,以防止语音克隆技术被恶意利用。未来,我们需要在技术发展和伦理安全之间找到平衡,确保语音克隆技术能够为人类带来更多的好处,而不是成为新的威胁。
(文:AI音频时代)