自动驾驶底层逻辑陡然转向,端到端结构为何突然成为兵家必争之地?
长城旗下自动驾驶公司毫末智行联合清华大学智能产业研究院(AIR)举办的自动驾驶公开课,已至第三期。
此前课程,清华智能产业研究院的学者们主要介绍了自动驾驶AI技术基础原理,以及大模型在自动驾驶的应用趋势,包括单车智能自动驾驶、车路协同自动驾驶和高等级智能道路建设等自动驾驶技术发展。
这一次,清华智能产业研究院老师们的分享涉及端到端自动驾驶中AI算法扮演的角色。
端到端架构是近来自动驾驶领域最前沿的技术路线,今年的全球顶级计算机视觉会议CVPR最佳论文奖就颁给了《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶),这是一篇由上海人工智能实验室、武汉大学及商汤科技联合完成的端到端论文。
端到端架构,简言之就是将自动驾驶系统中不同的架构、模块融合成一个完整的统一体,直接完成输入到输出的训练。
早期知名的自动驾驶初创公司,诸如Waymo、Mobileye等就是采用的模块化系统,好处是每个模块建模目标非常明确,可解释性非常好,可以灵活升级。但每个模块的设计和优化都有自己的一套体系,多个模块组合到一起后就不可避免造成误差累积,而随着自动驾驶数据采集量的爆发式增长,终极误差会被放大到惊人的地步。
模块化结构也不利于自动驾驶的商业化落地,每个模块独成体系,也就意味着要求专属的Debuff机制,背后就是庞大规模的研发团队和资金投入,并且还不一定能换回升级迭代的效率。
所以端到端这种单一的超大决策模型应运而生,其最大优势就是结构简单,所有目标都围绕着决策最终目的展开,系统的每一步优化也就是统一可控的。
同时,从输入到最终决策输出,整个过程改用端到端学习后,依赖海量数据的纯数据驱动学习就成为可能。
最后,因为端到端是很多模型在同一个体系下训练,所以不同模块模型的主干能够被共享,这就大大降低了计算工作量。
上海人工智能实验室、武汉大学及商汤科技联合完成的端到端论文,就是重新审视了感知模块和预测模块的关系,提出了注重任务优先级的UniAD架构,将自动驾驶任务集成进统一的网络中。
在清华大学智能产业研究院詹仙园看来,时至今日,端到端自动驾驶已由早期的小决策模型,发展到巨大无比的模型,自动驾驶交互范式随之由在线交互,延伸到完全离线的学习。潘兴博士则认为,AI算法和算力在端到端自动驾驶中会扮演愈加重要的角色。
我们之前有科普过,自动驾驶最基本的输入输出体系分为感知、决策和执行层面,其中尤以感知最为复杂。
例如深度学习系统要识别一个苹果,需要先将苹果标注,系统才能在下一次自主识别出苹果,但苹果是多种多样的,有种类的变化、颜色的变化等等,甚至被切成块状或是被遮挡一部分,都会造成识别困难,对每一种状态进行标注又会指数级增加成本。
使用AI能力进行数据管理检索、自动标注、AIGC仿真数据合成等就成为解局思路,毫末在今年四月发布的自动驾驶生成式大模型DriveGPT雪湖·海若,就是一个基础大模型,使用DriveGPT来构建AI能力。
通过大模型的有效表征,数据具备了可被编辑能力。例如,采集到的原始视频中,没有车辆障碍物,但通过DriveGPT可以将对它们进行粘贴、剪辑、随意旋转,再放进视频当中,从而获得新的仿真合成数据。
除了感知领域的应用,在智能驾驶决策和规划上,大模型在应用中也发挥了很大的价值和作用,DriveGPT使用人驾的用户数据,持续地迭代和学习更好的驾驶行为和决策。
另外,毫末的DriveGPT不仅能够完成轨迹预测、图片合成类的辅助工作,还具备智能的决策能力。潘兴博士表示,“DriveGPT具备输入一段视频可以去预测未来轨迹以及回答驾驶决策过程中问题的能力,可以给出可解释性的决策。”
这意味着,宏观决策和微观行为可以通过模型被联动起来,提高系统的学习和理解维度与效率。随着端到端自动驾驶的来临,毫末会进一步将感知和认知两个模型进行端到端的打通,最终到感知和认知模型合二为一。
数据处理方法论的完善自然意味着数据利用效率的提升,而要把海量的驾驶数据转化为真正的数据资产,就对处理能力提出高纬度要求。
潘兴博士表示,数据智能是整个自动驾驶迭代的核心,这个过程中要积累海量的数据资产,通过AI大模型,可以更好地去管理这些数据资产,而管理这些海量数据,算力自然也是刚需。所以我们可以看到的是,各种超算中心的落地。
大洋彼岸,是特斯拉Dojo超算中心落地,预计2024年可投入使用算力就能达到100Exa-Flops(Exa=10^18)。大陆这边,小鹏自动驾驶算力中心“扶摇”,最高算力600PFLOPS(peta=10^15),毫末搭建了MANA OASIS雪湖•绿洲,最高算力670PFLOPS。
在潘兴博士看来,智算中心的稳定持续运行,也为大模型的迭代和自动驾驶的提升提供了源源不断的动力。端到端的架构层面革新,伴以AI算法和超算中心的工具引入,以数据驱动为主的自动驾驶3.0时代正在拉开序幕。
撰文丨孙小树
下一篇:苹果正式发布3纳米mac芯片