特斯拉FSD V12系统的开发细节曝光了。
虽然马斯克预告过FSD V12改变了技术路线,但让人意外的是,特斯拉其实在今年年初才开始训练这个基于神经网络的智能驾驶算法。
而就在四个月后,新系统就已经准备好取代旧系统;八个月后,全新的FSD V12在马斯克直播中亮相。
这背后则是一条改变的技术路线,从规则驱动,到数据驱动;从分模块设计,到端到端。
同时也带来了新挑战。
FSD V12:只有神经网络
总的来说,特斯拉FSD V12只有一个核心特点:没有规则代码,只有神经网络。
什么意思?
市面上常见的自动驾驶系统,大多采用分模块设计,包括感知、决策、控制三个模块,各任务内部采用各自的算法模型。
其中AI算法主要应用在感知模块,决策、控制模块还是常规的,基于if else逻辑的代码。
也就是算法工程师编写的代码,会给自动驾驶系统建立一套规则,红灯时要停车、绿灯时可以通行、要在车道中间行驶等等。
所以这种系统缺点很明显,规则设定标准由各家工程师确定,驾驶风格很容易和司机习惯不匹配,从而体验很差,还不如自己开。
而特斯拉FSD V12只有神经网络的意思是,以往感知、决策、控制的几大模块在设计时统统不需要,只要确定神经网络架构,然后输入数据训练就行。
一套神经网络能处理所有输入信号,并且输出驾驶决策。
根据真实的人类驾驶数据,系统就能学会怎么开车,并不断开得更好。
这也就是所谓的从规则驱动到数据驱动。
从根据输入的各种环境信息,系统基于规则来判断这种情况下要怎么开;到训练时先输入人类驾驶数据,系统充分学习人类驾驶习惯后,在实际驾驶环境中根据输入的环境信息自己判断怎么开。
如果有处理得不好的情况,就专门针对这个场景多输入一些数据。
也就是类似ChatGPT的训练方式,不过是更适用于汽车的版本。
在决定改变技术路线之前,特斯拉自动驾驶团队就向马斯克展示了基于神经网络的系统能处理更好的情况。
在道路上散落着垃圾桶、倒下的交通锥,还有一些随机障碍物时,汽车能准确绕过以上障碍物,穿过车道线,并在必要的时候违反一些交通规则。
而在直播之前,马斯克也对基于神经网络开发的FSD进行了一次测试。
共计25分钟的行驶路程,马斯克只在系统处理过于谨慎时踩了踩油门,但始终没有碰过方向盘,中间还有一次系统做出了比他预想中更好的操作。
我的人类神经网络在这里失败了。
如何看待
其实早在马斯克宣布FSD V12变为端到端技术路线之前,这个概念已经在自动驾驶玩家内兴起。
因为端到端自动驾驶系统开发难度低,不用前期写海量代码(FSD V11版本控制堆栈中有超过30万行C++代码),也不用工程师提前设计规则。
只需要不断输入人类驾驶数据,系统就能自己看着学。
但是这对于自动驾驶玩家也提出了很高的要求。
比如输入的必须是大量优质数据,才能更好帮助系统学习。
马斯克发现,当输入超过100万个视频后,基于神经网络的自动驾驶系统才开始表现良好。
而在今年年初,特斯拉就已经向这套系统里输入了1000万个人类驾驶视频,并且还是经过筛选的,老司机的那种。
特斯拉在全球各地近200万辆的车队,每天也会提供约1600亿帧视频用于训练。特斯拉预计,未来用于训练的视频将达到数十亿帧。
这对于数据量、数据标注、算力等等来说都是挑战。
并且,端到端技术之所以没有大规模在自动驾驶玩家内普及,是因为有一个关键问题:这会增加自动驾驶系统的不可解释性。
现阶段来说,端到端自动驾驶仍然是一个“黑盒”,没有办法精准解释某情况下系统处理得不好是因为什么。
所以特斯拉给出的解决方案是,在测试时发现系统处理得不好,那就针对性的多喂数据。
比如马斯克直播时系统差点闯红灯,给出的解决方案就是多输入一些交通信号灯,特别是左转信号灯的视频。
另外,马斯克也给团队定下了一个指标,实时显示FSD系统在没有人类干预的情况下行使的英里数。如果出现干预情况,就处理对应的问题。
更重要的是,这样学下去还会诞生一个新的问题:系统不仅会学到老司机的丝滑操作,也会学到人类司机没有符合交通规则的行为。
比如在遇到停车标志时,超过95%的人会缓慢通过,而不是完全停车。
这意味着监管部门需要明确规范标准。
美国国家公路安全委员会就正在研究,是否允许自动驾驶系统进行没有完全遵守交规的操作。
总之,特斯拉FSD V12的面世对于自动驾驶来说确实意义重大。既然能实现全流程AI化,那么就更有迈向AGI,即通用人工智能的可能。
自动驾驶何时能迎来ChatGPT时刻?
命运的齿轮或许就从此刻开始转动。
参考链接:
https://www.cnbc.com/2023/09/09/ai-for-cars-walter-isaacson-biography-of-elon-musk-excerpt.html