Facebook工程师创建了比尔·盖茨的AI语音克隆体

2019-06-12 09:10

近年来，人工智能技术的发展已经让我们觉得有些可怕，而如何防止 AI 这把双刃剑不被错误地使用，也引发了越来越激烈的探讨。比如 2017 年底冒出的 DeepFakes 视频换脸技术，就让许多名人遭遇了虚假色情片的困扰。现在，Facebook 工程师们又创造出了一个能够惟妙惟肖地模仿比尔·盖茨的语音 AI 。

事实上，盖茨只是 MelNet 可以模仿的多位人物中名气最大的，其他“被克隆”的包括乔治·武井（George Takei）、珍·古德（Jane Goodall）、史蒂芬·霍金等人。

在下列剪辑中，你可以听到一系列无害的句子，比如：

游泳时抽筋不是闹着玩的（ A cramp is no small danger on a swim ）

同样的话他说过三十遍（ He said the same phrase thirty times ）

摘下没有叶子的鲜亮玫瑰（ Pluck the bright rose without leaves ）

2 加 7 小于 10（ Two plus seven is less than ten ）

上述每一段语音，都是由 Facebook 工程师设计创建的一个名为 MelNet 的机器学习系统生成的。那么，用来训练这套 ML 系统的数据，又是哪里来的呢？

据悉，MelNet 分析了 452 小时的 STEM－y 类 TED 演讲数据集，以及其它有声读物。

显然，对机器学习系统来说，模仿这些人物慷慨激昂的演讲方式，确实是一个不小的挑战。

近年来，语音克隆的质量一直在稳步提升。比如近期播放的 Joe Rogan 复制品，就是一个极好的证明。

不过这一进展的大部分工作，可以追溯到 2016 年的 SampleRNN 和WaveNet 。

后者是由位于伦敦的人工智能实验室 DeepMind 创建的机器学习（ML）文本转语音（TTS）转换程序，该实验室同时为 Google Assistant 智能助理提供支持。