汇聚全球视觉新闻资讯
你所在的位置:汇视网 > 影视 >明星

GAN伪造音视频文件,眼见耳听不再为实

发布时间:2017-07-04 08:56  来源:搜狐   编辑:安远  阅读量:19560   

原标题:GAN伪造音视频文件,眼见耳听不再为实

在今年早些时候,一段关于法国音乐家Fran?oise Hardy的YouTube视频在网上流传。视频中,台下的人问她,为何唐纳德·特朗普会让其新闻秘书Sean Spicer在就职典礼人数一事上撒谎。Hardy回答说,此事是极有争议的,Spicer先生给出了“多种事实”。

这一视频的内容很奇怪,尤其是Fran?oise Hardy女士本人。虽然她现在已经73岁了,视频中看起来却只有20岁,而且她说话的声音像极了特朗普的顾问Kellyanne Conway女士的声音。

Klingemann先生的实验让虚假视频走入大众视线,预示着未来可能会有一场关于真伪视频的战争。原本书面的信息可以轻易的伪造,图像和声音却难以伪造,因此图像和声音证据原是非常可信的,但目前GAN的存在可能会改变这一局面,它可能会让图像和声音变得也不那么可信了。

事实上音频更容易伪造。通常情况下,计算机通过连接大量语音短记录片段来创建一个句子,这也是Siri声音的生成原理。但这样的数字声音受限于它们记住的片段范围,因此数字声音只有在说到某些特定短语的时候才听起来真实。

而GAN 生成音频的工作方式则不同,它使用神经网络算法来学习音频源的统计属性,然后在任何其他的上下文中再现这些属性,以毫秒级而非秒级的片段建模。如果我们想要让特朗普或者其他任何一个公众人物说出指定的话,其实就是将对应人物的演讲材料作为输入,告诉算法你想要输出的语音是什么。在过去几年里,谷歌在英国的DeepMind团队,百度在硅谷的深度学习研究院和蒙特利尔研究院,都发表了从文字到语音的高性能算法。目前这些算法只有大型公司的计算能力才能实现,但这种情况终将改变。

相比音频,机器生成图像更难实现。 2014年,Ian Goodfellow推出了GANs,彼时他还是 Yoshua Bengio在MILA的学生。尽管深度学习允许机器能够轻易完成图像识别的任务,辨别不同种类的数据,比如机器能轻易分辨一张猫和一只狗的图片,但是想要机器能自动生成猫和狗的图片就没那么容易了,计算机很难通过数据库中的大量训练图像,自动生成有意义的图片。

Goodfellow转而想到了另一种方法实现图像生成:竞争。不再请求软件凭空生成有用的东西,而是提供了另一个软件作为原软件的对手来推动图像生成。对手会辨别原软件生成的图像,判断它们是否“真实”。通过试图愚弄对手,生成软件学会创造看起来真实的生成图像。对抗软件“了解”现实世界是什么样子,因此赋予了生成图片意义和界限。

目前,GANs可以根据一句语言的描述,生成小型的邮票大小的图像。当你告诉GANs,“这只鸟是白色的,有一些黑色头和翅膀,并有一个长长的橙色喙“,它会为你画出来。可能画出来的图像并不完美,但一眼看过去却很真实。

当时这样的算法效果并不出奇,但GAN的发展非常迅速。在过去五年中,由相似算法推动的照片分类软件错误率已从25%降低到百分之几。人们期望图像生成领域也能取得同样的进展。谷歌的机器学习艺术家麦克·泰卡已经通过训练GANs算法生成了人脸的图像,分辨率像素大小为768,这像素超过了以前同等研究实验像素的两倍。

Goodfellow现在在搜索巨头谷歌的内部AI研究院Google Brain工作,如果一定要估计这一算法实现时间的话,他认为,生成YouTube假视频有可能在三年内实现。其他人则认为可能需要更长时间。但是所有人都同意这只是时间问题,而不是能不能实现的问题。Goodfellow说道,“我们认为AI会改变我们所信赖的证据——图像和音频”。

生成式对抗网络(GAN)是近年来大热的深度学习模型。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

相关搜索热词:视频