新闻  |   论坛  |   博客  |   在线研讨会
AI终于攻破音乐:新歌金曲都能高仿,还会唱Rap
硅星人 | 2020-05-30 11:08:34    阅读:4046   发布文章

基于机器学习技术的人工智能,在最近十年已经变得非常先进,在计算机图像识别领域,现在已经广泛应用在自动驾驶、机器人、手机拍照滤镜等众多领域;语音识别技术也有很大的突破,人工智能现在已经可以准确“听懂”世界上每一种主流语言,甚至包括中国流行的方言。

更为强大的生成式神经网络模型,近几年非常热门。利用到 DeepFake 技术中,可以让换脸视频以假乱真;谷歌前年发布的 Duplex 技术,生成的机器人语音可以代替客服接听电话,效果令人震惊。最近,人工智能再一次实现重大突破:OpenAI 开发的一个全新的神经网络,不仅能够生成流行风格的音乐,“编”出的曲子风格还可以和现实中的音乐人实现“高仿”。OpenAI 给它取名叫 Jukebox,中文就是点唱机,大概意思是点什么唱什么,没有难得倒它的……只要你给这个神经网络提供音乐的类型 (genre)、参考的歌手和歌词作为输入,它就能自动生成对应的音乐。而且它还有多种工作模式。1)跨界合作:把歌手A的歌词和B的风格/唱腔混搭在一起,生成一首“跨界合作”单曲;
2)歌曲补完:把一首歌的前12秒输入进去,Jukebox 可以自动补完这首歌,而且风格竟然和原版歌曲还挺像;3)自造歌曲:借助 OpenAI 此前开发的文字生成模型,Jukebox 能把生成的歌词插到给定的风格、歌手身上,生成一首全新歌曲。有这么厉害么?不听不知道,一听吓一跳。先来感受下第一首歌,用埃米纳姆 Lose Yourself 的歌词,配上了坎爷 Kanye West 的曲风和唱腔。这两位从未合作过的殿堂级说唱巨星,终于在人工智能的帮助下“你中有我,我中有你”了:风格混搭再来演示一下歌曲补完的效果。OpenAI 的研究人员喂了一段火星哥 Bruno Mars 的金曲 Uptown Funk,从视频12秒之后的都是 Jukebox 自己生成补完的。感觉神经网络跟“哈利路亚”这句较上劲了:
最后,再让我们来看一下 OpenAI 的“人工智能套娃”:用 GPT-2 生成模型发明的歌词,再扔到 Jukebox 里,让它自己编出一首歌。这首歌借用的是水果姐 Katy Perry 的风格。据听过的网友表示,这首歌貌似还混了一点A妹 Ariana Grande 和 Radiohead 的风格金曲:微信文章只能放三条视频,不过 OpenAI 还有成百上千条 Jukebox 生成的样歌,你可以到 https://jukebox.openai.com/ 网站上面试听。比如这首四分之一 Frank Sinatra + 四分之三 Alan Jackson 演唱的流行+乡村风格 City of Stars……真是闻所未闻的混搭风格。

Jukebox 实现了哪些突破?

截至 Jukebox 之前,已知的基于机器学习的音乐生成技术,已经能够整合多种乐器的音色,生成复杂的音乐。但是有一件事一直以来困扰着研究者:用人工智能无法生成音乐中重现人声,捕捉不同人的不同的音色和声音动态和表达风格。研究者们试过一些手段,比如在符号层面生成再用音频渲染,或者采用风格迁移的方式,但是效果都不好。
OpenAI 决定采用直接在原始音频层级(音频文件的数字浮点层面)上开展工作。但是如果用 44.1kHz率,就意味着每秒钟有4.41万次采样,计算量太大。所以他们决定采用 VQ-VAE (vector quantization variational autoencoder),一种可以用于图像、音频和语言的,编码-解码式的生成模型。OpenAI 的实现逻辑,简单来说就是先把原始音频编码成数据,训练,然后再用****重建成音频。也正是通过这种方式,Jukebox 在更高工作效率和歌曲拟真程度基础上,还能生成多变的、以假乱真的人声。论文中的流程图:容易理解的示意图:先需要一个压缩的过程,用卷积神经网络 (CNN) 作为一个编码器模型,将原始 44.1kHz 采样率的音频数据压缩到每秒钟344个采样,作为训练素材。在压缩的步骤中,OpenAI 使用的就是 VQ-VAE 模型,并且加上了三个层级,分别压缩8倍、32倍和128倍,倍数越高压缩掉的细节越多,但是仍能够保留素材本身的音调、音色等关键信息。


到了生成的步骤,用训练好的神经网络模型 (transormer) 生成新的音频,再用 transformer 和 CNN 进行上采样 (upsample) 和解码。生成的过程中同样进行了三次上采样,最高一层生成基础旋律和歌唱,中间和底层则为歌曲增加更多的音色细节,显著提高最终生成歌曲的音质。当生成步骤的模型训练完成后,你可以简单理解为,OpenAI 的研究人员已经获得了不同的音乐类型、歌手和歌词所对应的“代码”。接下来,前面压缩的部分就不再需要了,只需要输入对应的代码,生成模型就可以开始解码并自动生成一首类型、歌手和歌词对应的新歌。

Jukebox 训练细节

在训练数据方面,OpenAI 制作了一个超过120万首歌(其中60万首英文歌)的数据库,配上歌词网站抓取了对应的歌词和元数据。然后,按照前面提到的流程,对原始的音频数据进行下采样,还混合了左右声道来生成单声道的音频。
研究者训练 transformer 去预测压缩后的音频数据点 (audio token),再把对应的元数据(比如歌曲类型和歌手)一起加入。这样在后续的生成步骤中,他们就可以更换不同的歌手和类型,让同一段原始数据可以生成千变万化的不同歌曲。在无监督学习的前提下,transformer 能够获得将风格近似的歌手自动归类的能力。以下就是模型自己学习出来的分类结果:接下来,更难的挑战来了:如何把歌词数据加入到训练过程里。网上找到的歌词,往往跟歌曲对应的不是很好,比如歌曲里重复的段落在歌词里没有重复,比如同一首歌被多人演唱过,所以歌词不能直接拿来用。训练过程中还发现,歌词处理对于嘻哈音乐是最困难的(可能是因为重复的实在太多了……)所以研究者又加上了新的基于神经网络的工具:Spleeter,可以从歌曲中提取人声进行语音识别;NUS AutoLyricsAlign,把歌词和歌曲进行对齐;注意力机制,让解码出来的音乐,随着播放的进度,注意歌词编码的位置变化:这个注意力机制值得稍微展开一讲。上图中的横轴是音乐进度,纵轴是歌词进度,可以看到这条线大部分时候是实的,偶尔会有模糊的地方,就是歌曲到哪里不知道该唱什么了……
这种意外在 OpenAI 提供的样歌里经常出现,比如你可以回去听一下埃米纳姆和坎爷的那首 Lose Yourself,会发现到后半部分歌词就完全乱了,完全真不知道它想唱什么。然后有时能重新找到歌词,有些再也找不回来。下图更明显:闪过橙色的位置就是当前模型对歌词的注意力所在的区域,能看到可以看到歌词先是顺着走了一小段,然后就跑到九霄云外了,像是喝醉了一样……(是不是有点像照着歌词本学一首新歌时找不到北的感觉?)

Jukebox 的局限和展望

Jukebox 在生成的音乐素质、连贯性、样歌长度和可调节自由度等方面,都足以代表人工智能音乐生成的顶端水平。不过 OpenAI 指出,它还有很多不足的方面,和人类创造的音乐还差很远。1)在流行的音乐种类下无法复现人类常见的歌曲结构,比如副歌的重复等等;2)压缩和上采样的过程会带来明显的噪音——不过这一点网友似乎没有太多意见,有些人反而觉得有种硅胶和电台时代的迷人音质;3)让一首歌到达能听的程度,生成所需的时间在9个小时左右,所以暂时没办法把它开发成一个产品去使用;4)目前主要聚焦于英语歌曲,不过未来团队也希望能够训练更多语种。虽然已经发布了 Jukebox,OpenAI 仍在持续进行改进。比如,他们正在测试在压缩过程中引入 MIDI 文件调节,从而提高生成样歌的音乐性 (musicality),并且已经取得了初步成功。这有助于在未来让更多音乐人可以利用 Jukebox 背后的技术。

其它 AI 生成音乐技术

自动音乐生成其实已经不是一项很新的技术了。即使在人工智能的方向上,也已经有很多前序的研究,其中有不少也启发了 Jukebox。

已知最早的利用计算机算法生成音乐的案例是在1960年,由俄罗斯科学家 R. Zaripov 在乌拉尔一号计算机上实现的。


1997年,UC Santa Cruz 教授 David Cope 开发的软件 EMI,在一次音乐领域的图灵测试中顺利通过了考验:它生成的一首作品因为和巴赫的风格实在太像,一度被听众以为是遗失的作品。

反而同场竞技的音乐教授 Steve Larson 自己写的一首曲子被认为像是计算机写的……


David Cope

OpenAI 在去年就曾发布过一个早期版本的人工智能音乐生成模型 MuseNet。它可以结合最多10种不同乐器的音色,生成古典、摇滚、乡村等多种不同风格,长达4分钟的乐曲(不包含歌唱)。

MuseNet 和 Jukebox 类似,也利用了 OpenAI 在 GPT-2 生成模型上的研究。理论上,GPT-2 背后的技术是预测下一个 token,此前我们感受过它写诗和编假新闻的能力,当然它同样也可以把 token 从文字换成音乐。

研究人员先是给了 Adele 的 Someone like You 几个音节的前奏,在其中一条生成的结果中,MuseNet 预测出的随后几个音节和原歌几乎一模一样,不过再往后就跑偏了……不过仍堪称非常令人惊讶的结果。


商业视频需要音乐伴奏,不过寻找最适合一条视频的音乐往往不是件容易的事情,找到了之后还要寻找授权,难上加难。Aiva 就是专门解决这个问题的。

这是一家由计算机科学家和音乐人组成的公司,他们开发的同名人工智能 Aiva 能够根据用户指定的风格需要,生成全新、不需要担心版权的歌曲。

它能够驾驭的曲风包括电影背景音、电子乐、流行、古典、交响、爵士、中国风、海盗歌等等。包括英伟达、沃达丰、TED 等知名公司和机构都在使用。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客