从小冰AI唱戏说起：微软“虚拟歌姬”的钱景与困境-快科技-科技改变生活

漆黑的大厅中，一个年仅5岁的女孩歌声在回荡，而台下数十个中年男女沉浸其中，不时露出惊讶神情，暗自赞叹歌声宛如天籁，不负昭华。

这并不是中国好声音的选拔现场，这是微软举办的一场特殊“演唱会”，听众皆是科技媒体的专业编辑与记者，而演唱者则是微软小冰——一个诞生于2014年的对话式人工智能。

一、小冰开腔：她也许是最接近人类的一位歌手

单单用文字无法让大家感受到小冰的歌喉，但前方的编辑听完后后用颤抖的手在QQ上发回两句话：

“震惊了！”

“超越人类了！”

随后笔者抱着怀疑的态度试听了一下小冰演唱片段，片段分为3种唱腔，一种普通歌声，另一种是难度较高的戏腔，第三种是日语唱腔。

首先是普通唱腔，片段中由于背景配乐仅有吉他/钢琴，所以女声较为突出，接近清唱，极为考验演唱者的功底。在小冰的演绎下，歌声中的细节十分丰富，其中唱到一些需要咬牙发音的部分（例如“轻轻”）时，隐约可以感觉到齿声和口腔共振，在每句歌词之间，可以听到较为明显的换气声，高音部分也能明显感觉到嘴中气息的流动。

从听感上讲，小冰的声音流畅自然，较为完整地还原了人类在唱歌时的特有的细节与表现，极少有特别明显的“电子音”，尽管未达到绕梁三日的水准，但也称得上是相当出色的拟人表现，普通人很难直接分辨出唱歌的是一位“虚拟歌姬”。

戏腔笔者了解不多，不过小冰的表现依然令人印象深刻，其演唱的片段是广为人知的《新贵妃醉酒》，戏腔中可以明显听到很浓重的口水音与鼻音，因为戏腔每句发生较长，换气声也更为明显。

至于日语唱腔，笔者在听完第一句之后就“震惊了”，这并非过誉，如果说中文唱腔中你还能隐约听到“电子音”，在日语唱腔中这个瑕疵就完全消失了，整个日语唱腔片段表现堪称完美，在不提示的情况下，笔者打包票你100%听不出来这是一位“虚拟歌姬”在演唱，这里我建议大家还是亲耳听一下。

演唱片段听完之后，笔者的综合评价：8/10，小冰也许是最接近人类的一位AI歌手。

二、难以置信的AI：微软如何调教这位年仅5岁的歌唱家？

小冰让人“震惊”的背后，则是堪称黑科技的微软V5版音乐演唱模型。

微软表示微软小冰基于深度神经网络的歌唱模型，已顺利完成V5新版本的研发。新的V5模型实现了重大突破，它使微软小冰第一次能够像人类歌手一样，使用充沛的“中气”来烘托演唱，从而将人工智能虚拟歌声质量提升至新的高度。

由于V5模型过于逼真，在演示时，微软甚至不得不专门提醒现场媒体：“我必须提醒大家听的时候注意，这不是人，没有这么一个人。”

此外，该模型不仅限于优化微软小冰的声音，还支持对任何人类歌手的声线进行学习、模拟和建模，演绎与再现歌手们巅峰状态下的演唱水平。

V5新模型还具有许多其他技术特征。例如实现了多声部的合成技术，使人工智能歌手可以在不同声部间自然切换，用多个声音来源组成新的虚拟歌手等。建模过程中，所需的训练数据量较上一个版本减少70%。从技术角度，新模型可针对任何人声建模，形成丰富多彩的人工智能歌手阵营。

三、钱景与困境：再聪明的AI也要赚钞票

微软是一家商业公司，对利润自然有着明确的追求，但自2014年诞生起，微软尚未公布过小冰诞生5年来的营收情况，不过今天小冰的歌喉的确为她打开了一扇门。

“虚拟歌姬”并不是一个新鲜玩意儿，严格来讲，这是一个有着十数年行业积累的新兴职业，如果小冰真的要跨入这条路，初音miku就是她所能触摸到的天花板。

“虚拟歌姬”的开创者之一初音miku，自2007年诞生，在2010年举行第一场“39感谢祭”演唱会时，2500张演唱会门票在瞬间被抢购一空，演唱日当晚更有超过3万名忠实拥簇者通过付费网络直播观看了整场演唱会。

初音的号召力是毋庸置疑的，仅在2012年期间，初音miku的税收收入就达到了4060万日元，按照现在的汇率约合人民币255万元，这已经超越了许多真人偶像。

在国内也有相似的例子，由香港泽立仕创造的“虚拟歌姬”洛天依是国内最为知名的中文VOCALOID，为了它手中的洛天依，国内视频网站哔哩哔哩在去年9月份收购10%股份，将其控股，而这10%的股权价格为4700万元人民币。

“虚拟歌姬”无疑是一门赚钱的生意，凭借着出色的唱腔，小冰转型“虚拟歌姬”或偶像同样是一条行之有效的商业化之路，这个职业有着广袤的钱景。

但小冰真的适合这条路么？

如果大家了解“虚拟歌姬”发家史的话，会知道他们从无人问津到火爆一时都有一个鲜明的关键节点，这就是是UCG内容的爆发。

UGC （User Generated Content）即用户原创内容，最初初音miku仅仅是一款歌手软件，用户所能接触到的仅仅一个一个虚拟形象和一款VOCALOID软件。真正让初音形象与歌声深入人心的是利用这款软件编曲填词，创作出无数歌声的音乐人，以及随之衍生的二次创作者，在用户自发性的创作中，初音的形象与歌声才逐渐饱满。

换言之，“虚拟歌姬”之所以可以成为偶像，原因就是在于创造他们的是用户/粉丝本身，他们投入的精力与自发传播造就了这个偶像，唱功则是其中最不重要的一个条件，说真的，无数圈外人都曾吐槽过初音miku的歌声过于怪异，但这丝毫不影响她被人所喜爱。

回头看小冰，小冰的本质是对话式人工智能，换言之，小冰是创造内容的一方，受众只能接受小冰创造的内容，而无法参与到这个过程中（或者参与的过程并不明显），缺乏参与感让小冰与UCG内容天生绝缘。

而且更过分的是小冰在国内甚至没有一个令人印象深刻的虚拟形象进行统一的人格化包装（连隔壁的小爱同学都有一个手办），即便出道，也无法被视为一个独立的个体。

总而言之，小冰的歌喉确实值得让人品味，微软的黑科技也让人惊叹不已，但小冰的背后与未来都隐藏着一条不容忽视的暗线——商业化，Table PC、ZUNE、Windows Phone败在商业化脚下的微软产品数不胜数，小冰需要在商业化中探寻出属于自己的道路，避免自己落得与这些前辈一个下场。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到