谷歌发布 AI 前沿成果 MusicLM，生成式 AI 迎来爆发

“继 ChatGPT 之后，音乐或将成为 AI 内容生成的前沿领域。

当地时间 1 月 27 日，谷歌发布全新 AI 模型 ——MusicLM。通过 AI 模型 MusicLM，文字可以直接生成高保真的音乐。

这是继文字生成 AI 模型 Wordcraft、视频生成工具 Imagen Video 之后，谷歌又一次推出生成式 AI 模型工具，这一次谷歌将目标瞄准了音乐领域。

透过 MusicLM，不难看到，这两年生成式 AI 赛道正在迎来爆发。

01、MusicLM 挑战更复杂场景

谷歌最新推出的 AI 模型 MusicLM，可直接将文字、图像自动生成音乐，并且曲风多样，凡是想听的音乐，基本都能自动生成。

MusicLM 并非是第一个可自动生成音乐的 AI 模型，此前，可视化 AI 工具 Riffusion 也能自动创作音乐，还有 Dance Diffusion，此外，当前最热门的聊天机器人 ChatGPT 的研发者 OpenAI 也推出过 Jukebox。

但值得注意的是，这些可自动生成音乐的 AI 系统，受限于技术和数据等因素，创作的音乐都比较简单，相对而言并不复杂。

和前辈们不同的是，MusicLM 可创作特别复杂和保真度特别高的音乐，也可通过图像生成音乐。这算是实现了全新突破，通过 AI 技术不仅可以识别乐器，融合音乐流派，还可以通过更抽象的概念生成音乐。

比如，想要街机游戏配乐，只要输入“街机游戏的主配乐，它节奏快且乐观”等文字，MusicLM 便可自动生成音乐。MusicLM 也可通过图像生成音乐，例如世界名作《呐喊》《格尔尼卡》《星空》等皆可作为素材来源。

不过，值得一提的是，目前谷歌只是发布了 MusicLM 的研究成果，因为版权等问题，谷歌还未向公众开放 MusicLM。

02、AI 生成音乐难在哪？

去年 10 月，谷歌在生成式 AI 模型上已经推出过 AudioLM，只需输入短时音频，就能生成相似风格的音频。彼时 AudioLM 只是纯音频模型，这个技术类似于语言模型，根据提示的语音内容，自主判断并生成相似内容。

从这个角度看，AudioLM 可视为是 MusicLM 的前身。AudioLM 在不进行转录或标记的情况下，可以模仿音频的音色、响度和清晰度等。但是，AudioLM 生成的音频和原版并无太大区别，并未得到公开应用。

通过 AI 模型创作音乐，这件事并不容易，因为生成的音乐包括音频信号、环境声音、人的声音等多个维度，是由很多信号相互作用形成的，而人体每次向外发出的声音，无论声音响度大小、音色好差，都由句法、音律等组成，这是非常复杂的综合性系统。

也恰恰是这些原因，在早期的探索过程中，自动生成的音频合成痕迹明显，声音听起来并不自然，发音也都不标准。因此 AI 模型要想实现真正意义上的自动生成音频，依靠海量的数据训练和模拟，是必不可少的基础性步骤。

针对这些挑战，作为 AudioLM 的“升级版”，MusicLM 的训练数据更加庞大。据了解，谷歌在 28 万小时的音乐数据集中，才训练出 MusicLM，为理解深度和复杂的音乐场景提供了基础。

此外值得一提的是，针对任务缺乏评估数据等问题，谷歌专门引入了 MusicCaps，用于文本到音乐的生成任务评估。

03、生成式 AI 迎来爆发

此次谷歌推出 MusicLM，可视为拓展 AI 应用的注脚，背后则是生成式 AI 赛道的爆发。事实上，生成式 AI 一直是近两年最炙手可热的话题。

2021 年，OpenAI 相继发布了划时代的 DALL-E、DALL-E 2 模型，实现了文本生成图像的跨越；去年，Meta 发布了 AI 短视频生成模型 Make-A-Video，同样可由文本内容生成视频；谷歌也发布了短视频 AI 生成模型 Imagen Video 与 Phenaki。

不止是国外，国内也有很多生成式 AI 应用。比如，字节跳动旗下剪映 APP，可根据文字内容自动生成匹配的视频画面。去年初，网易推出了“网易天音”，也是一站式 AI 音乐创作平台，可将用户编辑的内容通过 AI 自动生成为歌曲。

可以看到，生成式 AI 应用的场景越来越广泛，写作、绘画、剪视频等等，都可以通过 AI 技术实现。基于生成式 AI 广泛的应用前景，谷歌、微软、Meta 等巨头们纷纷推进研发，将生成式 AI 技术融合到产品中，这加速了生成式 AI 赛道的爆发。

事实上，生成式 AI 高速发展并非是这两年的事，只是因技术门槛过高，其前沿动态一直在科技圈小范围流传。直到 AI 绘画、AI 写作等频繁出圈，生成式 AI 得到了更广泛的关注。

生成式 AI 赛道爆发有必然原因，大数据和算法应用越来越成熟，模型工具越来越完善，这都加速了生成式 AI 应用的迭代。当前，生成式 AI 已经迎来爆发，未来还有巨大的发展潜力。根据 Gartner 统计数据，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，而目前的比例还不到 1%。

当然，任何技术都是一把“双刃剑”，生成式 AI 也面临着版权问题等挑战，此外还面临由 AI 生成“错误”引发的各种损失，就目前来看，还离不开人为干预。但长期而言，生成式 AI 巨大的发展潜力已经成为共识。

本文来自微信公众号：出新研究（ID：chuxinyanjiu），作者：飞飞