“CTO级无人车大牛不稀缺,我们这也就百八十个吧”。
可能只有百度Apollo有资本这样说。
而且也许也只有Apollo有胆量这么做:
年初一语,年末兑现。
百度无人车技术天团集体现身,从软件、硬件、系统全方位分享展示自动驾驶从技术到商业的进展。
这些以往在幕后的大牛都是谁?他们分享了哪些东西?
如何从Apollo这面“镜子”,一窥无人车发展的最新态势?
(发言在未改变原意的基础上,仅做流畅性编辑)
百度如何设计自动驾驶技术体系?
百度自动驾驶首席架构师陈竞凯,从整体图景上分析了Apollo自动驾驶系统的核心原则和架构。
自动驾驶系统应该如何设计?一直都有两个思路:一个是偏学术的,倾向于统一建模,端到端的解决问题;另外一个思路是偏向工程的,去拆分系统,分治突破。
端到端的建模非常的简洁优美,从长远来看,也是一个非常有前途的方向。
在这种思路下,在其他的领域里面也看到了一些不错的进展,比如说技术模型在NLP领域里面已经取得了统治性的地位。在图像领域,大模型也给我们带来很多的惊喜。同样,我们对于这种端到端的大模型的解决方案, 在自动驾驶系统的发展也充满了期待。
这个方案的问题在于存在很大的不确定性。我们不能确定它究竟何时成熟,是两年还是十年,这是一个问题。
所以我们目前的主要的思路还是沿着工程化的路线推进,同时也没有放弃我们在端到端方面上的一些探索。探索的过程中间,也会把阶段性的成果应用到一些路线上。
车载系统大体分成四个部分:地图、感知、预测决策、规划控制。
地图系统不管是离线或在线地图,总是自动驾驶系统的底层表达。离线地图是超视距整体性的感知,它在自动驾驶系统中发挥着重要的作用。
离线地图制作成本是不是很高?会不会成为障碍?在实践过程中间我们发现,离线地图并不是一个高成本的障碍,反而是前进的助力。
问题在于地图的实时性才是它的问题,而不是它的更新率或者它的成本。
目前的实践中,车端实时生产的地图和规模化生产的地图其实上还是有质量上的一些差距。需要通过我们自动驾驶策略去适应这两种地图差异。但这种适应对自动驾驶能力来说是有折损的。
所以我们认为,在目前的条件下,一个规模化生产的高精地图还是不可或缺的,实时地图更多的会被我们用在应对现实世界的变更,这时候我们会把自动驾驶的策略调整到一个更加安全谨慎的方式。
感知系统目前在整个业界的发展思路还是比较统一的,基本上是一个数据加模型驱动的系统。
主要的分歧在于传感器的配置。
我们的判断是这样的:应该去充分发挥各个传感器的能力,先要把事情做成,然后再去追求更好、更低成本。具体实践中从后融合的方案转向前融合的方案。
前融合使得我们能够充分地发挥各个传感器的优势。另外,我们也会充分的利用百度大模型技术方面的积累提升感知能力。
预测决策系统直接面对复杂外部环境的一个非常重要的部分。
百度最初的自动驾驶系统,预测和决策是分开的。预测带有自标注的任务,一直都是数据驱动的,决策、规划、控制,当初沿用的都是一些偏规则的传统方案。
基于规则的方案,通常是把遇到的问题划分成各种场景,在每个场景下,针对不同出现的问题,再做相应的处理。为了不让各个规则之间发生冲突,通常会仔细地限定每个规则的作用范围,一层一层地拆分下去,如果做得好的话,我们会形成一个类似树形的拆分结构;如果处理得不好的话,就会变成一个补丁摞补丁的系统。
上述规则系统在最初的时候,可以最大化人类的经验和知识,迅速地提升自动驾驶能力,但是随着时间的推移,有两个问题不可避免。一是策略分叉;二是面对城市扩展、场景变化的时候,需要调整规则去适应。
因此,百度认为学习性的PNC是实现全无人的一个必由之路。陈竞凯表示:“预测和决策其实是一个问题的两面,预测是决策的自我预言实现。所以我们构造了一个预测和决策的多任务系统,联合处理这个问题。我们对信号灯、道路元素等都做了一些建模和交互的处理,最后形成预测和决策的一个结果。”
百度的最终目标也不是用学习系统去完全替代规则系统。陈竞凯称,一方面因为交通系统本来就是一个靠规则约束的系统;另一方面也需要规则去守护最后的底线。
仿真系统方面,百度追求的是做一个有用的仿真系统,要能够满足对于问题迭代的需求。为此,其做了大量工作。如Worldsim系统,使得能够批量地去构造大量的场景,去验证在各种场景下的综合能力;L2W系统,能够精确地复现道路的场景,帮助其去分析和验证路上的问题。
另外,从一个城市向另一个城市迁移过程中,数据统计、数据分布是有变化的,这时候要求我们的自动驾驶能力、策略要做一些细微的调整,整体的场景库也对迁移过程提供很多保障。
仿真系统在自动驾驶技术迭代的过程中间发挥了非常重要作用,是技术能力提升的重要支撑。
百度自动驾驶地图,有什么不同?
百度人工智能技术委员会主席黄际洲介绍了百度自动驾驶地图的相关进展。
近期有一部分L2智能驾驶在提”重感知,轻地图”这一主张。这主要原因是很难翻越高精地图面临的“三座大山”,即资质壁垒、自研壁垒和供给稀缺。我们的观点是轻成本、重体验的地图对自动驾驶至关重要。
对于L4的自动驾驶而言,要达到99.99%以上的成功率,高精地图更是其中必不可少的核心能力之一,并要做到“把成本做轻、把体验做重”。
“轻成本”主要从自动化数据融合和地图自动化标注两方面展开。
自动化数据融合,是高精地图大规模生产的重要基础和核心能力,其目标是全自动地将多次采集到的传感器的数据,比如说激光点云或者道路的影像,在统一的坐标系下进行融合,主要的挑战就在于这个融合的绝对或者是相对的精度要达到厘米级。
为了实现上述目标,百度通常先将这些数据按照块或者道路进行划分,在每个分块里首先进行数据的融合,然后再对块之间进行高精要素的串线和几何的调整,以增强块间高精要素的连续性。
如何保证上述所得到的基础数据都是完全对齐的?百度的解决方案是按照数据空间分布划分去构建多层级的图结构,确保全图的精度是一致的。这其中主要的技术创新有三个方面:第一是多层级的图优化;第二点是场景化关联和匹配;第三是基于学习的匹配算法。
地图自动化标注,指的是基于点云和图像数据自动生成高精地图的过程,是显著降本增效的核心驱动。
为了达到高自动化率,百度在要素识别、矢量提取、自动建模等关键步骤上都进行技术创新。
其中,要素识别上,采用的是多层级的点云识别方式,识别的结果要远远优于一次识别的结果;矢量提取上,对点云和图像中提取的矢量要素进行后融合,保证要素的高精度和高召回;自动建模上,基于车道级的拓扑模板进行矢量要素匹配,极大地提高拓扑的生成以及车道线串接的准确性。
重体验部分,则主要包括安全、舒适和高效三个方面。
安全方面,百度采用的方案是融合车端感知数据与多源地图来实时地生成在线地图;舒适方面,百度引入驾驶知识图谱来实现;高效方面,百度解决方案是,基于百度智能交通以及百度地图,构建交通大脑,赋能自动驾驶出行。
此外,为了保证更好的自动驾驶体验,百度提出了Apollo自动驾驶地图,主要分为四层:
第一层是静态层,这一层也是传统高精地图内容,包括车道级的数据、拓扑数据以及辅助车辆定位的定位数据。
第二层是动态层,包括实时的交通的事件、实时的交通的态势以及实时的环境的变化,这需要依赖于海量的时空数据以及车路协同等。
第三层是知识层,最核心的是驾驶知识图谱,以及与自动驾驶体验强相关的安全驾驶、舒适驾驶行为与知识等。
第四层是驾驶层,知识与驾驶策略的融合,实现深度融合地图和感知、决策、控制应用;而数据实时感知的融合,数据闭环还有实时更新,实现了高鲜度的地图的数据。
Apollo自动驾驶地图已经实现了规模化的应用:
首先,萝卜快跑快速发展,累计订单量达到140万单;其次,提供智能驾驶全场景体验ANP领航辅助驾驶解决方案;最后,百度地图率先推出了城市车道级导航、车位级导航、智能红绿灯等自动驾驶级导航产品功能。
感知系统:大模型成核心驱动力
百度计算机视觉首席架构师王井东,介绍了百度自动驾驶感知系统的情况。
百度自动驾驶感知经历了两代。
感知1.0的百度经过了三个阶段:第一阶段主要依赖激光雷达点云感知,辅助红绿灯的识别,同时利用了毫米波目标阵列;第二阶段增加了环视图像的感知,与激光雷达点云感知形成两层感知融合,提升了识别效果;第三阶段,自研了毫米波点云感知算法,形成了三层感知的融合。
这些多模感知实际上用的是后融合方案,它通常需要规则的方法,是不可学习的,因此相对来说泛化能力不够。
感知2.0主要部分是多模态前融合端到端的方案,在点云和图像的表征层次上进行融合。与此同时,远视距的视觉感知,通常在200米以上视觉的感知效果相对比较好;近距离采用了鱼眼感知,从鱼眼感知实现了freespace的预测。
感知环境,需要丰富和高质量的数据,基于此,百度感知2.0还利用大模型进行数据挖掘和数据的自动标注。
而在自动驾驶感知里往往会遇到一些挑战。一是远距离的视觉感知问题;二是在点云空间去做3D的标注非常困难;三是长尾数据挖掘问题,包括少见的车型、各种形态、各种姿态行人,以及低矮物体、交通、施工元素等。
如何解决上述三种挑战?百度的方法是利用大模型技术,来提升自动驾驶感知能力。
首先利用文心大模型自动驾驶感知的技术,来提升车载小模型的感知能力。同时在数据方面,利用了文心大模型图像弱监督预训练模型来挖掘长尾数据,提升模型训练效果。
在自动驾驶感知模型训练方面,百度采用的是半监督方法,充分利用2D标注和没有3D标注数据。
具体方法是采用迭代的自训练方案。首先在既有2D又有3D的训练数据上,去训练一个感知大模型出来,然后给没有3D标注数据打上3D伪标注。再继续训练一个感知大模型出来,如此迭代,逐步把感知大模型效果提升,同时也使得3D的尾标注的效果越来越好。
上述感知大模型不仅用于视觉,也用于点云,也用于多模态端到端方案。
大模型已经成为自动驾驶能力提升的核心驱动力。
Apollo数据闭环
百度自动驾驶专家李昂,分享了百度Apollo在数据闭环方面的思考。
随着自动驾驶的规模化落地,在城市道路中行驶的无人驾驶车会不断遇到新问题和意想不到的新场景。自动驾驶需要持续学习,而数据闭环是其实现持续学习能力的重要基础架构。
面对大规模数据随之带来的存储、标注以及计算量压力,百度Apollo提出了「高提纯、高消化」的数据闭环设计思路。数据提纯路径利用车端小模型和云端大模型,实现高效率数据挖掘和自动化标注。
数据规模不是唯一标准,数据纯度也是重要考量;数据纯度即为单位数据的信息量,数据挖掘与标注是提高数据纯度的两个手段。百度正是根据这样的思路,设计了自动驾驶的数据提纯通路。
而且,百度Apollo发现,数据提纯效率很大程度由推理引擎的效率决定,而推理引擎效率又可以分为数据读取速度以及模型的推理和计算速度,后者可以通过分布式方式来提升。
为此,Apollo与百度飞桨团队合作,将百度自研的PaddleFlow数据缓存的基础架构集成引入数据闭环平台,使推理引擎的数据读取效率获得10倍以上的提升。
此外,全量数据回传无法支撑规模化,数据提纯的呈现方式实际上是云端到车端模型和策略的双重降维。
获取高纯度的数据后,另一个重要的问题就是如何高效率、高质量地消化这些数据,将其转化为车辆的自动驾驶能力。数据分布不断变化、多个模块相互关联、自动化效率,是无人驾驶系统的复杂性给数据消化带来的三个挑战。
为应对上述问题,百度是通过数据、模型、指标的集中式、端到端整合,来实现高质量的数据消化,其基于持续学习与AutoML概念在数据闭环里设计了一套自动化训练引擎,并做了多模块联合优化以及数据分布方面的一系列工作。
以行为预测为例,其实可以通过问三个问题来映射所有的数据到不同的场景,而这三个问题,可以分别是主车的行为、障碍物的行为,以及障碍物的类型。当对每个场景的数据进行统计,就可以最终获得整个数据集所对应的数据分布描述。
总结来看,百度提出了以高提纯、高消化为核心驱动力的数据闭环的设计思路。高提纯通过小模型和大模型的车云协同,实现高效的数据挖掘和自动化标注;高消化通过数据、模型、指标的集中式、端到端整合来实现。
除此之外,训练、推理以及数据分布是在数据消化中可以形成有效的一个反馈机制,进一步提升数据消化的整体效率和效果。
百度造芯,如何支持自动驾驶?
昆仑芯科技CEO欧阳剑,介绍了百度在自动驾驶芯片方面的布局和进展。
昆仑芯已经量产了两代,第三代、第四代芯片在研发过程中。
其中,第一代AI芯片采用14纳米的工艺、2.5D的封装,这款芯片刚量产就在百度数据中心里部署了超过2万片;第二代AI芯片为7纳米工艺,采用了XPU第二代的架构。截至2022年,第二代昆仑芯已经在数据中心、工业、自动驾驶等领域进行了大规模的部署和落地。
昆仑芯产品有三点优势:第一,昆仑芯是为数不多能够在真实系统上大规模部署和应用的AI芯片;第二,其生态完备性是国内做的最好的,跟国内所有的处理器、操作系统都进行了适配;第三,它灵活易用,提供的SDK,给予开发者非常低的学习门槛和非常快的迭代效率。
截至目前,昆仑芯已经在车路协同、物流系统、智慧交通等与交通相关领域落地。具体到自动驾驶方面,昆仑芯二代芯片已经在百度RoboTaxi系统上做了完全适配。
我们用昆仑芯二代芯片跟业界最主流显卡做了性能对比,性能优于这个显卡,而功耗只有不到它的一半。我们也跟主流的AI加速卡做了性能对比,是它的两倍以上,同时我们也做了一个端到端的测试,在不到它的一半的功耗之下,取得了比较领先的性能。
除了AI的模型,在一些控制规划模型上,昆仑芯也取得相对一些显卡更好的性能效果。
不止与RoboTaxi驾驶系统适配,昆仑芯也在一些仿真系统和在路测系统上做了测试,效果达到客户的要求。
今天的高阶自动驾驶计算系统,与数据中心系统有非常相似的地方,它的算法非常多元,迭代速度非常的快,复杂度越来越高。这对芯片的要求也越来越高,它一定是要求非常好编程、好移植,否则那些先进的算法没法很快迭代到车上来使用,系统也就没法保证领先性。此外,稳定性也要非常好这不仅包括硬件,还包括整个软件,乃至整个系统。
在车载计算系统上,过去有观点认为它是相对封闭的系统,要做非常深度的软件和硬件定制。五六年前在云端AI芯片上也一样有人在讲这个观点。但今天回头来看,过去五六年提上述观点的AI芯片公司全部已经不在市场里。
因此,未来车载计算系统一定是相对开放,能够给用户提供高算力、高通用,可以满足客户个性化需求的计算系统。
未来,昆仑芯也会考虑面向高阶自动驾驶系统定制车规高性能的SOC。
商业落地:L4降维真的能走通?
百度智能驾驶事业群组技术委员会主席王亮,介绍了Apollo在L2、L4方向的商业化进展,以及如和将两种不同的技术栈,统一在一个数据闭环之中。
百度L4自动驾驶运营测试里程累计超过4000万公里;萝卜快跑在多个城市开启对市民的运营,累计订单超过140 万;今年8月百度在武汉和重庆国内首次实现“全无人商业化运营”,这是中国自动驾驶历史上的重要里程碑。
辅助驾驶方面,目前国内市场智驾产品以高速领航辅助驾驶和记忆泊车为主。有数据显示,中国居民日常出行中,城市通勤占比在70%以上,有城市自动驾驶能力的L2+产品将是未来市场的主流趋势。
百度将在2023年面向市场推出一款L2+领航辅助驾驶旗舰产品ANP3.0,将支持复杂城市道路场景,并且衔接融通高速和泊车场景。
智能驾驶计算单元,采用的是百度自主研发的智驾域控制器,搭载了2颗英伟达Orin-x芯片,AI算力为500 TOPS;传感器方面,部分搭载了800万像素高清摄像头,视距可以达到400米。同时搭配半固态激光雷达,每秒产生百万以上的点云。
ANP3.0以视觉方案为主,同时系统也搭配激光雷达。ANP3.0视觉、激光雷达两套系统独立运作、低耦合。
ANP3.0视觉感知技术始于2019年启动的Apollo Lite项目,采用了“单目感知”加“环视后融合”的技术框架。
今年百度对视觉感知框架进行了升级,推出了第二代纯视觉感知系统Lite++。
Lite++通过Transformer把前视特征转到BEV,在特征层面对相机观测进行前融合后,直接输出三维感知结果,并融合时序特征实现运动估计Learning化;模型设计层面,基于transformer结构,实现时空特征融合。
在空间融合阶段将位置编码变换从全局BEV空间转换到局部相机坐标系,消除相机内外参差异带来的差异。时序上尽可能多的融合主车运动与多帧信息,提升障碍物检测稳定性。同时基于时序特征,障碍物的速度、意图、未来轨迹预测等关键信息都可以进行端到端的输出。
此外,Lite++对后处理的多相机融合依赖更低,算力需求更轻,泛化性更好。
ANP3.0的目标是让自动驾驶能够随时随地的开启,技术路径是用好百度多年在高精地图领域积累的优势;结合百度对自动驾驶算法的理解,定义了为智驾规模化泛化而生的“轻量化”自动驾驶地图。在降低地图制作成本的同时,通过建设在线地图学习能力,用算法应对现实变更、冗余地图的标注问题。
目前ANP3.0已进入北上广深多地泛化测试阶段,将在2023年夏天随着第一个客户车型上市与大家见面。
随着L4规模化商业试运营的到来和高级辅助驾驶产品的普及,百度如何利用L2+产品反哺L4技术,加速Robotaxi的规模化商用?
实现无人驾驶商业化的最佳路径是,前期在限定区域实现技术积累,通过技术降维和L4数据,为L2+产品做热启动;更长期看,利用L2的规模优势,提前收集L4泛化所需要储备的长尾问题。这也正是百度目前所采取的技术路径。
在王亮看来,百度领航辅助驾驶产品未来3-5年搭载量有望突破百万。百万量级行驶在城市道路上的L2+乘用车,可有效地收集和补充长尾问题,加速L4无人驾驶系统在更大范围运营,数据壁垒也将成为百度的L4技术护城河。
2025年L2+产品将跨越消费者鸿沟,L4的商业模式也将在局部区域和城市实现跑通,两者的紧密配合将正式开启,二者的结合将比任何单一路径都更快速、更高效地实现自动驾驶。
L4技术降维L2+产品已经走通。
2023年后,ANP3.0数据反哺L4的规划也在进行中,并已经完成了前期的技术布局,随着智驾ANP3.0产品上市,后续L4和L2+技术的协同飞轮将运转起来,形成正反馈。
百度L4、L2+技术和定义描述是:
一方为另一方提供有利于生存的帮助,同时也获得对方的帮助,两种技术方案和产品形态共存,相互依赖,彼此有利,此为“共生”。
亮相的百度无人车技术大牛,都是什么来头?
以上,就是刚刚结束的Apollo开放日亮相的所有技术大牛的分享内容。
总体来看,百度把6个之前多在幕后的一线技术研发负责人推向台前,详细介绍描绘了Apollo自动驾驶的整体架构、子系统优势特征,以及商业化进展。
Apollo架构体系,包括地图、感知、数据闭环等等要素,是任何自动驾驶公司都绕不过去的必经之路。
但百度又能依托集团长时间耕耘其他AI领域的能力,给每一个技术板块都赋予独特优势。
比如文心大模型带车端小模型的方法,提升车端感知能力;再比如昆仑芯在云端计算、仿真系统为Apollo提供的助力等等。
而这其中最重要的,是百度在目前L4遇冷的环境下,再次自证“降维”路线能够走通,提出了可供全行业参考的业务模型。
最后,来简单认识一下这次出场的百度无人车“CTO级”技术天团。
陈竞凯,2002年毕业于北京大学计算机系,硕士。是百度内部低调又谦逊的技术大神之一。先后在搜索、广告和地图等业务上统领过技术工作,并任百度技术委员会联席主席。2018年开始,陈竞凯出任百度自动驾驶首席架构师。
黄际洲,博士,正高级工程师,百度人工智能技术委员会主席,百度地图首席研发架构师。多年来一直从事自然语言处理、知识图谱、数据挖掘等人工智能相关技术研发及大规模产业化工作,先后担任百度阿拉丁、图片搜索、搜索推荐、信息流推荐、百度地图等产品的研发架构师。
王井东,2001和2004年在清华大学自动化系先后获得学士学位和硕士学位,2007年在香港科技大学计算科学与工程系获得博士学位。2007年进入微软亚洲研究院,现任百度计算机视觉首席架构师。2021年当选IEEE Fellow。现任百度计算机视觉首席架构师。
介绍数据闭环体系的自动驾驶专家李昂,公开资料较少,但毫无疑问一定是Apollo口中的“CTO级”大牛之一。
昆仑芯科技CEO欧阳剑,本科毕业于北航电子工程专业,硕士毕业于中科大。2016年进入百度,负责自动驾驶数据体系架构,2020年起任百度首席芯片架构师。是百度造芯的主要操盘手。
王亮博士,2000级北航计算机系校友,2012年从肯塔基大学博士毕业,在Adobe实过习,毕业后先去了微软雷德蒙德总部……2013年加入百度美研,参与AR平台打造,主要是发挥其机器视觉和3D建模方面的专长。至今,官方title是杰出研发架构师,百度无人驾驶环境感知方向技术负责人、百度智能驾驶事业群组技术委员会主席。
所以这次亮相的几位技术大牛都是T几?
很可能至少人均T11,因为王亮2年前提到T11,而陈竞凯很多年前就是T11了。
而按照百度技术职级,最高是T12,不过至今未听说谁是T12…