9月11日,2020腾讯全球数字生态大会视频通信云专场云端召开。会上,腾讯多媒体实验室高级总监商世东发表了以《腾讯天籁音频,面向云会议的新一代实时音频技术》为主题的演讲。他指出,天籁音频技术是实时端到端音频通信的完整解决方案,致力于让用户在云视频会议时可以“听得见、听得清、听得真”。
腾讯多媒体实验室的高级总监商世东
商世东认为与传统会议场景相比,实时音视频的云视频会议面临着非常大的挑战。主要包括以下几个方面:音频外设的多样化(客户端,高清音质)、网络条件差异(Ethernet,4G,W i f i)、声学环境复杂(远距离/混响/本底噪声)、入会形式复杂(同地多设备)、噪声类型多变(平稳,非平稳噪声)、客户端的音频设备差异性(蓝牙,有线,内置)、与传统会议设备的兼容、用户需求的多样化(音频内容分享)及现网质量评估的复杂性。而天籁音频技术是实时端到端音频通信的完整解决方案。
在演讲最后,商世东表示,天籁音频技术规划的关键策略包括音频通信核心体验、声音场景分类和处理、音频痛点难点问题及差异化体验。最终目标是提升语音可懂度、自然度、舒适度。
以下为商世东演讲实录:
大家好,欢迎来到腾讯全球数字生态大会视频通讯云专场。我是腾讯多媒体实验室高级总监商世东。今天要跟大家分享的是《腾讯天籁音频——面向云视频会议的新一代实时音频技术》。
大家都知道经过几十年技术的发展,其实对于端到端的实时音频通讯技术,已经形成了一套非常成熟、非常稳定的框架。这套框架结构已经在我们传统的,比如说经过PSDN的电网网络、运营商网络里面得到了广泛应用。
大家日常当中使用的固定电话、手机通信其实采用的就是这样的架构。我们讲基于IP网络的应用上面也有这样类似的一套框架,当然它基于运营商的实时语音通讯技术最大的不同在于网络,但是从整个端到端的语音通讯框架来说,他们有很多地方都是类似的,比如说在上行的时候他们都有信号采集、语音前处理,然后经过编码,在经过网络传输的时候,需要一系列的网络的相关的这样的一些处理,比方说FEC 、比方说丢包补偿 PLC的技术,以及自动速率控制来控制不同带宽下的音频语音包速率。语音包经过网络来从一端发送到对端,然后在播放端或者说我们叫下行端的时候,我们会有一个解码,然后再加上后处理,最后经过渲染,经过实际的喇叭把这个声音放出来。这一整套框架结构其实经过几十年的发展,已经在很多地方得到广泛使用。
那我们自然而然就会讲, 这样的一套实时通信的框架系统,在传统会议场景上面我们看到,已经有很多类似的产品出现,比方我们在会议室当中用的比较多的,我们都看到了这种八爪鱼,就是思科或者宝利通这样的设备。当我们讲基于云通信的、特别是基于云的视频通信的技术,跟我们讲的传统会议场景里面的端到端的语音通讯技术有什么不同呢?其实还有蛮大不一样的, 大家可以看这个PPT。
在传统的会议场景 ,基本上我们讲是一个受控的,可预见的场景。在这样的场景里面你用的外设是确定的,你用的是哪个供应商、硬件设备制造商的产品,这都是事先知道的。你的会议室的场景基本上事先是经过精心设计的,比方说不会有太强的噪声,不会有太大的混响。你的网络基本上很多时候都是得到专线保证的,尤其是在公司的内网里面。我们讲网络的QOS 、丢包、延时和抖动其实都不会太过恶劣。但是当我们来到基于云的视频会议通讯场景的时候,情况就会有很大的不同,我们会发现其实这样端到端的实时音频技术面临着非常大的挑战。会面临哪些挑战呢?
第一 ,我们会面临这个入会客户端设备的多样化。因为整个入会客户端设备在这样的云视频通信场景下面会存在着很多种不同的,来自于不同厂商的、来自于不同质量,来自于不同种类的这样一批客户端设备,客户端可以是PC、 MAC机器、iPhone、安卓这样的设备,也有各种专业视频机、还有来自于传统电话的,这些设备的音频能力,也就是我们讲的音频的采集和播放能力参差不齐,存在着很大的差异性。
然后关于音频外设本身我们也存在着很多的选择,会用耳机、会机器内置的麦克风或者扬声器。耳机也会存在着这种蓝牙耳机和这种有线耳机的区别,可能还会有用蓝牙音箱来入会,这样种种的音频外设之间同样存在着巨大的差异性。
同时网络条件也存在着很大的不一样,有的是这种公司内网,有的是这种4G移动网络,有的会是家里的WiFi,这种网络条件与传统会议场景里面的网络存在着很大的不同。
然后更为复杂的还是声学环境,相对以前也变得更加更加复杂得多。我们将会存在着各种的近讲,比方说拿着耳机的近讲,或者远距离的在会议室里讲话,声音场景可能会有很多噪声,有平稳的噪声、还有突发的噪声。
然后这种入会的形式也会相比较以前丰富了很多。以前在会议室里面基本上就是打开视频会议,然后就开始通话了,但现在语音视频会议我们发现可能会存在这种典型的同地多设备入会的形式情况。在一个会议室里,大家都拿着电脑和大屏或者视频机开始纷纷入会,就是在同一个地方,存在的有多种设备进入同一个会议的情况,通常这样的情况肯定会导致啸叫或者漏回声。
客户的使用习惯相对以前也发生很大的变化,以前通过这种视频机入会的时候 ,基本上就是屏幕分享,然后视频这个打开。但现在我们发现用户需求有可能会存在一种共享音频的需求,比方说他可能会拿他的客户端设备来做一些视频和音频内容的分享,把这个PPT里面的音频内容或者是一首歌、甚至一个视频通过云视频会议的场景分享到对端,这种新的场景是在传统的这种会议场景里面你是不会碰到的,音频内容分享或者音乐内容都会很少碰到。
另外,还有一个因为是云视频会议这里面存在着这么多的不可控的可变的因素,所以我们对于端到端的质量的评估、实时质量评估,这也是一个需求。如果没有这样的一个实时质量评估的系统,我们无法知道在这样一个存在的复杂多变的网络环境下,到底端到端实时云通讯的质量如何。
在这种云视频会议场景下,声音场景会有很大的不同。还是讲像刚才以前我们会在这种可控的传统会议室里面开会,现在我们可能会在会议室里面,也可能是在开放的这种办公区域里面,也可能是在家里面,如果是在家里面,可能这种场景更多的是。我们是来自于厨房的或者电视的噪声,这样的场景在以前的视频会议场里面是我们碰都不会碰到的,或者甚至于是在移动的场景,特别是在车载的场景里面来入会。在车载的场景里面,汽车的这些噪声以及在车载环境里面重混响会对整个入会的音质提出非常大的挑战。在不同的场景下,用户对于音质的期望也会有所不同。
我们讲腾讯天籁音频技术系统里面,为了解决我们上面所说的面对云视频会议场景下的各种挑战,我们开发了一整套的技术和一套完整的框架,我们围绕着”听得见 听得清 听得真“这样子的目标。具体从技术角度来讲,就是语音的可懂度、语音的自然度和语音的舒适度,围绕这样的目标,我们打造了音频实时通信的完整的解决方案。用户的核心体验,我刚才讲过,主要指高音质、低码率、低延迟这样的核心体验,围绕着声音场景,在不同的声音场景下面,我们有定制化的这样的高音质、高清音频的解决方案,以及围绕着我们在这种云视频会议场景下的用户痛点和难点问题进行在重点攻关。
比如说我们讲,用语音分离技术来解决我后面会提到的这种鸡尾酒会的问题。然后还有进一步的,是我们在天籁音频系统里面提供的一些差异化体验。我们提供的这种差异化的体验,比如说我们后面会讲到的这种特定主讲人增强或者是特定目标人语音增强,就是它只增强你希望增强的特定人的声音。然后我们还会有这种音视频多模态的音频跟视频技术,应用他的脸部信息,特别是唇部信息来做语音增强工作。
下面一页是我们端到端整个实时语音通讯技术的一个全景图。基本的框架我们是从音频工程开始,经过了音频分析、分类、视频和处理之后,然后送到我们的音频引擎和网络抗性增强里面来做进一步的编解码。因为只有经过这样子的音频引擎和网络抗性的处理之后,我们讲音频语音包才适合在这种基于IP的网络上面进行传输,然后在下行端或者我们讲播放端,我们收到了语音包,经过各种音频下行语音后处理之后,经过它适配过的这种音频硬件外设上面,给他以这种失真尽可能小,用户尽可能感到舒适的这种方式给他播放出来。
下面我讲一下几个我们在天籁音频技术里面比较有亮点的技术。
第一个是超宽带语音技术。超宽带语音技术主要是在这种云视频会议里面因为存在着一些外设,他们有很强的采集和播放能力。它可以提供一个非常宽的音频带宽,在这样的音频带宽下使用超宽带语音技术可以提供一个更优秀的音质,所以我们把整个语音的带宽从这种宽带进一步提升到超宽带,然后这个实现过程并不是简单的把采样率升级就行的。
音频外设存在着的多样性、复杂性,在这里我们为了保证我们超宽率语音技术能够适配于各种硬件,我们在解决方案的鲁棒性做了很多的工作,以保证在我们的超宽带语音技术能够在各种各样的设备上面都尽可能地展现出它最优异的能力,提供一个最好的体验。我们可以看到右边一幅图里,经过超宽带和非超宽带处理,其实整个语音的清晰度是有很大的不一样的。
另外 ,下面一个技术我们讲是多次道语音增强技术。因为这也是在云视频会议场景里面有一些会议室里面,它会存在着多通道的音频采集跟播放功能。我们在整个天籁音频技术里面会根据终端设备它能力的不一样,来自动决定你是采用单通道还是多通道的语音降噪和增强功能。如果是多通道,还有另外一个值得在这里介绍的,就是我们相应的去混响的技术。因为我们讲是在一些特别是现在的办公室里面存在着这种玻璃房,里面会存在通常有很强的混响。在这样的条件之下, 经过我们的多通道去混响和降噪技术能够大幅度提升整个音质。
另外,值得一讲的是,毕竟我们端到端的实时语音通讯,除了端上面的各种音效处理之外,我们的各种技术还是要跑在IP网络上面。IP网络我们都知道,面临就是这样一个最不确定的问题,就是它网络的QOS 它的丢包、延迟、还有抖动,会对整个语音的流畅性连续性有一个很大的影响。所以我们在天籁音频里面有专门利用深度学习的技术,能够突破业界里面现在通常使用的20到40毫秒的这样一个语音丢包补偿的局限性。
我们在我们的天籁音频里面,我们可以支持连续补偿20到100毫秒的这样的一个语音包的语音数据,能够显著的提升我们在弱网环境下的一个通信质量和可容度。我们可以看到其实经过我们实际的现网的一些数据证明我们可以把在现网上45%甚至45%丢包率的场景下,可以有效提升正个语音质量的MOS分到0.2到0.3分。
刚才我也提到声学场景识别,其实对于我们整个方案的定制化有很重要的作用。在不同的声学场景里面,其实我们如果能够准确的检测到入会的参会人是什么样声学场景,可以有针对性的进行很多处理。我们在整个声音场景上面,我们今天还参加了DCASE2020的比赛,DCASE 2020比赛采集了12个欧洲城市的10种不同的声学场景,有四大类不同录音设备,我们的方案在这里面取得了一个两项单项排名第二的成绩。现在我们方案可以有效的识别就像我刚才讲的我们这种常用的入会场景,并且在不同的入会场景里面根据它给出来的声学场景识别的信息,做定制化的处理。
除此之外,我们发现在整个云视频会议里面,我们还会有一些音乐内容。就像我讲的一些或者屏幕分享的时候,你可能会是想把一些PPT的内容或者视频的内容需要分享给对端的播放端的人来听,这时候这里面很大一部分内容可能是音乐内容,对于音乐内容来说,你的音质的要求可能会更高。
音乐的内容的话,不论从码率来说,还是在采样率来说,相对于传统的语音来说都会丰富了很多,有更多的这样的高频的细节在这里面。所以如果不能够很有效的把音频内容检测出来的话,对于用户来说,在听到这样的视频或者音乐或者是电影内容的时候,那他的体验是不佳的。所以我们在整个天籁音频里面加入了音乐内容检测。可以看到,我们的音乐内容检测的准确率是很高的。我们在各种不同的端上面,在各种不同的场景里面,只要是音乐内容我们都可以达到一个非常高的这样的音乐内容检测。然后一旦检测到音乐内容 ,现在正在通过网络传输,我们会有效提升整个音乐内容的音质。
另外,还有就是我们在整个我们讲云视频会议场景里面,其实碰到比较多的一个挑战,就是同地多设备现象。在以前的这样的一个传统的视频会议场景里面,其实因为入会设备就那么几个。一个房间里面就一个大屏,就一个电话是不存在这种多设备检测入会的,但是现在在这种云视频会议场景里面,每个人都拿一个电脑,他电脑都会入会,然后同时在房间里面还会有各种传统的设备可以入会。这里面带来了非常大的声音挑战,最直观的就是这里面很容易引起啸叫,但实际上发生的时候问题的复杂度远远超过啸叫,会带来音质的损伤,会带来漏回声、 会带来啸叫、会带来一系列的影响整个会议体验的这样的一些问题。然后我们在这里面,我们在天籁音频里面,我会讲到我们通过一些语音相关性的信号以及我们通过音频水印的内容,可以有效的检测出现在是否存在着同点多设备现象,以及如果发生这种现象我们可以怎么办?
音频水印技术其实跟视频的水印有相似的地方,就是说把水印的信息加到声音信号里面去。在不影响人的听觉体验的情况之下,能够有效的标识这段音频它的身份,所以我们把音频水印技术用在我们现在的同地多设备检测里面,显著的提升了整个同地多设备检测的这样的一个准确性。
另外一个比较大的问题,在这种云视频会议里面,我们讲其实就是整个会议的系统的鲁棒性。但是我们发现在很多一些消费类产品里面,其实如果是使用它自己的一些厂商自研的方案,有时候会有漏回声现象。其实漏回声对整个会议音频体验的影响非常之大,我们为了解决这样的问题,我们开发了残留回声的检测技术,残留回声检测技术可以有效的防范整个不同的客户端设备、不同的音频外设由于它本身硬件或者软件的一些缺陷带来的这样的一个残留回声,然后我们的系统在发现了一个系统残留回声的时候、还可以有效的对这样的残留回声进行抑制,很好的弥补了一些硬件设备的不足。
感谢大家,我今天的分享内容就到这里结束。总而言之一句话总结下来就是,天籁音频技术是为了云视频会议而生。我们针对云视频会议上面的各种以前在传统的视频会议里面没有碰到的挑战,有针对性的开发了多项技术,并且把它形成一套完整的解决方案。这也是大家能够现在在腾讯会议使用过程当中能够体验到的这样一个音频端到端的最佳的体验。
谢谢大家!