热热闹闹的2024北京车展期间,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚,给出了这样的新判断。
今年,高阶智驾到了普及时刻。自动驾驶也到了“淘汰赛”阶段:功能上卷“无图”,成本层面卷“千元级”,并且还要“标配”,技术上则竞争“端到端”、“数据驱动”。
王晓刚认为,行业热议的这些概念不是突然流行的,这一切不过是AI技术演进的必然结果。
而商汤早在2018年,就已经在如今的竞争局面做储备。
现象和体验:车展上商汤绝影的新产品新技术
北京车展今天刚刚开幕。智能车参考粗略统计了一下,整个车展上,大约有八九十款不同的品牌、车型,都搭载了商汤绝影的技术或方案。
在整整一年前的上海车展,这个数字还是三四十款。
这些技术和方案,都是已经量产交付给用户的。
比如大热的小米SU7,之前官方展示过一个引起热议的交互场景:
用户指着前方的一辆车,询问语音助手这是什么品牌什么车型,车机立刻做出了准确的回答。
实际上,背后是绝影的一系列大模型协作展现出的能力。比如大语言模型准确理解用户指令及给出相应回答;多模态大模型则将视频、声音、图像等等数据相关联,形成环境理解、逻辑思维和内容生成能力。
智能驾驶方案上,广汽埃安旗下主打实用性的中型SUV LX Plus,搭载具备高速领航辅助能力的ADAS系统,背后的支持,是商汤绝影的环视BEV感知能力和通用目标感知能力。
而商汤绝影的高速领航全栈智能驾驶能力,搭载在新势力哪吒的轿跑新车S上。
已交付量产的成熟方案产品之外,绝影还在北京车展上展示出了更多即将量产上车的“黑科技”。
比如今年苹果的Vision Pro大热,让人们领略到了3D交互的魅力。绝影则推出了两大全新座舱3D交互,包括3D Gaze高精视线交互和3D动态手势交互。
其中3D Gaze高精视线交互将让用户通过眼神控制中控图标;3D 动态手势交互是行业领先的支持动态手势和手部微动作识别的智能座舱技术,能让用户通过手势“隔空”进行各类座舱交互。
两个功能配合,体验几乎就是“Vision Pro”裸眼上车,智能座舱的交互更加符合人类直觉,更自然。
2022年末,商汤提出了行业首个感知决策一体化自动驾驶通用模型UniAD,次年,这篇论文获得了计算机顶会CVPR 2023年的最佳论文。
刚刚在北京车展,商汤绝影宣布这篇最佳论文要“上车”了!
体验方面,潮汐车道对于传统智驾方案来说是很大的挑战,但是端到端大模型在经过相关数据的训练之后,可以对指示文字、图标以及车流变化等外部数据进行解读并理解这些信息,从而主动变更路线,驶入或离开潮汐车道。
又比如乡村道路上经常碰到这样的场景:在对向来车的情况下,前方有行人在跑步:
在确保安全的情况下,搭载UniAD的测试车先加速向左行驶绕开行人,而后快速向右打方向避开对向来车,顺利通行。
之前的智驾产品在有地图信息的情况下也能机会能通过,但成功率不敢保证,因为背后是一套复杂规则定义的“被动触发”机制,但路上情况稍有不同,系统就无计可施。
UniAD不再依赖人工穷举的感知“白名单”,规控层面也不再是传统手写规则,通过数据学习和驱动,AI司机仅凭摄像头的视觉感知,能够应对城区甚至是无标线和交通标识的乡村道路等复杂环境。
智能驾驶今年开启了铺天盖地的时代,功能上高速NOA成了标配门槛,价格也下探到了15-20万元的车型。
但热闹之下,最近却有不少行业技术大牛都发出了相同的警告:
必须要认真考虑技术路线了,以前基于规则的技术栈能走多远,是个问题。
这背后是智能驾驶算法,从以往模块化、规则驱动,向端到端的一体化模型、数据驱动演变。
所以,比“上了多少车”更加重要的,是商汤绝影的端到端模型的率先上车,代表着中国智能车行业发展趋势和今后新技术范式。
技术:绝影端到端,「真」在哪?
商汤绝影提出的UniAD,是国内玩家中首个端到端自动驾驶大模型。
而且令人吃惊的是,量产上车的进度,也是最快的。
除了刚才提到的体验优势,UniAD还有4个关键点:
高效开发迭代“纯视觉、纯无图”高阶智驾与生俱来感知决策一体化的真·端到端体量轻,代码量数千行
分别来看,端到端模型能够通过完全数据驱动的模式,将其学到的驾驶能力和技巧迁移泛化到其他场景当中,自主且高效解决行泊场景中新出现的各类长尾问题,具备更快的迭代效率,可以有效降低开城成本,帮助车企更快速实现“全国都能开”的目标。
而现在大家都在卷的“无图NOA”功能,以及很多玩家都在积极推进的纯视觉城市NOA能力,这些都将是端到端模型与生俱来的天赋,因为它只需要导航信息就能把车驾驶到目的地。
这种“纯无图”、“纯视觉”的能力,自然就可以帮助车企降低软硬件成本,彻底告别高精度地图覆盖低、更新慢,以及需要靠激光雷达等传感器冗余才能解决各种Corner case带来的成本难题。
更重要的是,从UniAD的描述中可以看出,其最大的不同就是和人类驾驶思维模式无限接近,主动学习、思考和推理,理解复杂的交通环境,而不是根据不同场景被动触发对策。
怎么做到的?
其实,所谓“端到端”是针对传统技术范式而言的,其中自动驾驶的感知、决策、规控等等互相独立。传感器采集到的数据,需要通过这一系列不同的算法模块,最终才能“变成”操作指令。
并且这样的技术体系中,通常只有感知模块应用AI模型,其余模块都是基于人为定义的手写规则。
每个独立模块之间的信息是逐级传递的,在这个过程中必然会存在信息的丢失和误差,而且前一个模块的误差会影响到下一个,多个模块之间的信息误差会不断累积,进而影响到自动驾驶方案的整体效果。
其次,规则主导的智驾功能,行为上刻板僵硬,面对不同路况不能采取灵活应对措施,导致整个产品不好用、不敢用。
王晓刚表示,Waymo、特斯拉,包括商汤绝影在内,都尝试过对基于规则的传统智驾方案进行优化和迭代,但都无法突破这套算法框架的局限性。
想要从感知开始就实现信息的无损传递,必须要有一个全新的算法范式——端到端算法模型。
目前,市面上不少端到端方案是在感知和决策两个模块分别搭建一个大模型框架,因为这样更容易实现落地。但“两段式”方案的两个模型之间传递的依然是人为定义的显性信息,避免不了信息损失和误差,降低了难度,也拉低了它能力的上限。
商汤绝影UniAD方案则是将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化,不需要对感知数据进行抽象和逐级传递,“所见即所得”:
将传感器采集的原始信息输入到模型中,然后以自车轨迹规划为准进行指令输出。
这就是UniAD被称为“真·端到端”的关键原因——并非只是把决策规模模块“神经网络”化,而是从一开始,就完全将感知到决策整个过程当做一个整体,来思考和解决问题。
“端到端”的自动驾驶模型其实不是一个很新的东西,2016年就由英伟达首次提出。但之所以现在开始落地实践,是因为端到端大模型“黑盒子”缺乏可解释性,卡住了大部分玩家:性能体验不佳,但却不知道该怎么调参…
商汤的方案是这样:与不可解耦得端到端方案相比,UniAD将多个模块整合到一个端到端模型架构之下,仍可以对各个模块进行分别的监测和优化。
王晓刚认为,端到端模型上车量产是一个趋势,类似“输入数据输出油门刹车信号”这样的模型,目前上车仍然具有安全风险。
“一体化”的程度不是一蹴而就,是一个过程,逐渐将感知、决策、规控等的各环节融入一个大模型之中。
UniAD之所以能称得上是国内首个“真”端到端,是因为它的一体化程度最高,融合之路走的最远。
也正是因为做到了真正的一体化,使得整个系统中需要人工手写代码维护的比例,降到了最低,总共只有几千行代码的体量。
绝影率先实现,王晓刚归因为商汤长久以来投入的AGI(通用人工智能)能力。
从2018年开始,商汤开始布局算力基础设施,在上海临港投入超过50亿元人民币建设智算中心AIDC,当时很多人不明白为什么一家算法公司会在基础设施建设上投入如此巨大。
但现已经验证,强大的算力是AI大模型发展必不可少的。而依托AIDC加持的商汤大装置,商汤绝影也有了行业领先的算力储备,运营算力规模达到12,000P,预计到2024年第四季度,峰值算力将达到16,000 P。
在强大算力的基础上,商汤又建立了自己的“日日新大模型体系”,涵盖大语言模型、文生图/视频模型、多模态模型等等,能够解决众多开放式任务,率先摸到了通用人工智能的门槛。
所以,王晓刚认为,绝影在端到端模型的领先进展,以及智驾/座舱/车云业务全面布局,其实是商汤AGI技术最好的落地和实践载体。
趋势:端到端reset智能汽车
传统自动驾驶公司生存空间越来越小,这是王晓刚最新的判断。
这样的观点仍然是从技术演变的角度出发:
端到端的兴起,reset自动驾驶赛道,竞速上车,是自动驾驶赛道新阶段的指标和“试金石”。
细化地说,端到端模型第一次真正实践了“自动驾驶第一原理”,从体验和技术迭代两个维度,完美解决了过去难以解决的问题。
正因为这样,它给了所有玩家新的机遇:更好的智驾体验、更低的维护、泛成本,以及更有竞争力的智驾方案成本。
但代价是以往模块化的、规则驱动主导的技术体系,必须推倒重构。
所以它同时也是门槛极高的挑战,从商汤绝影的例子来看,至少需要要具备这些能力:
算力基础设施、基础大模型积累、多模态大模型…
当然还有技术路线切换的“沉没成本”:以往投入的资金、时间。
老牌明星可能会优势归零重置,“后来者”也会获得领先优势。
2024自动驾驶洗牌,表面上是看项目落地、账上资金,其实背后主要驱动因素是技术路线的重构。
新趋势下,商汤绝影值得重点关注。