成立仅三年，为什么说毫末在引领中国自动驾驶技术质变期

一周了，新智驾团队都泡在上海车展里，一直走到脚底起水泡。

废话不多说，关于今年国内智能驾驶行业的技术热点，通过观察这一届上海车展，我们发现了这几大关键词：

去高精地图的重感知方案；
BEV视角下的多模态融合（强调采用Transformer结构）；
基于高算力的大规模数据训练；
基于行泊一体解决方案NOA功能在城市场景的量产上车。

就在车展前两天，华为发布ADS2.0版本，强调放弃高精地图路线，实现城市导航辅助驾驶，计划在23年实现60个无图城市的落地。

车展期间，理想汽车也宣布，理想智能驾驶进入3.0时代，技术上采用基于Transformer模型架构的BEV、Occupancy感知算法，解决动静态障碍物和道路真实环境重建问题，计划2023年底，不依赖高精地图，城市NOA推送100座中国城市。

“去高精地图”“智能驾驶3.0时代”“BEV感知算法”……这些词并非新面孔，此前就已被业内频频提及。

比如自动驾驶3.0时代是毫末在2022年9月份首次讲到，那时，毫末就提出了大模型和可解释的驾驶常识。

而“重感知”技术路线则又是毫末最早在2022年4月在行业内公开提及，也对其BEV感知技术做了公开展示，后边车企智己汽车、极狐汽车等也走的是“重感知”路线，现在看起来，这个趋势已渐渐被越来越多的行业各玩家所认可。

不难发现，过去一年间，随着中国自动驾驶进入深度技术革新和产业的激烈竞争周期，行业的很多趋势其实都与毫末这家公司的判断和实践不谋而合。

这次车展前夕，毫末发布行业首个自动驾驶生成式大模型DriveGPT，逐步融合感知和认知模型，提出实现端到端自动驾驶的技术演进目标。

毫末智行CEO顾维灏再次预测，“我们相信在大数据的基础上，自动驾驶的DriveGPT也将重塑汽车智能化的技术路线，加速自动驾驶3.0时代更早到来。”

顾维灏认为，毫末正在冲刺进入自动驾驶的3.0时代。

当大多数参赛选手都在2.0阶段打转的时候，成立仅三年的毫末，敢喊出如此口号的底气到底是什么？

划分自动驾驶3.0时代，中国自动驾驶进入技术质变期

首先得明确一下，毫末口中的“自动驾驶3.0时代”是怎么样的。

每个时代都有典型的技术特征，由于驱动力和技术工具不同，技术高度上也明显不同。

在技术特征上，自动驾驶可以分成四个维度：产品和技术运行了多少里程、感知技术的实现方法、认知技术的实现方法、技术模式的迭代方式。

在毫末看来，自动驾驶1.0时代，是硬件驱动时代。

在这一阶段，自动驾驶车辆武装到了牙齿，车上挂满了各种大大小小硬件。

感知能力，主要靠的激光雷达，谁的线束多，谁的个数多，谁的能力强；在认知上，也基本使用规则的方式来实现。

而由于车辆整体成本比较高，所以车辆数量有限，同时技术效果一般，由此导致自动驾驶里程规模比较少，在100万公里左右。

2.0时代，是软件驱动时代，这时行业等来了更大算力的中央计算芯片，看到车上车规级传感器个数在快速增加，也等到AI在车上的广泛应用。

然而这时在感知方向上，各个传感器仍是各自为战，用一些小模型和少量数据做训练，得到单个传感器的识别结果，然后进行感知结果级的融合。

在认知方向，依然是人工规则为主；不过由于整体成本的下降和效果的提升，自动驾驶里程在快速增加，达到上千万公里。

3.0时代，则是数据驱动时代。

“这是完全不一样的时代，是数据自己训练自己的时代，我们所做的一切的，都是为了能够做出数据通道和计算中心，以便可以更高效的获取数据，并把数据转化为知识。”顾维灏说。

不同阶段的技术特征并不是突然发生变化的，这背后与智能驾驶落地场景的变化息息相关。

进入2023年，中国智能驾驶玩家NOA功能落地的战火早已从高速场景蔓延至城市场景，甚至可以明确地说，城市导航辅助驾驶产品在2023年将围绕量产上车发力。

从高速封闭道路到城市开放道路下的复杂场景，从感知实现技术上看，难度呈数量级上升，2.0时代的智能驾驶技术开始迎来质变期。

因此我们看到，在这个阶段，从数据上看，大规模量产车的落地，提供了充沛的数据资源，在感知方向，行业开始用多个传感器、不同模态传感器的原始数据联合输出感知结果。

从算法上，Transformer架构模型在自动驾驶的应用成为行业公认的范式，在认知方向，开始通过大量人驾数据抽取可解释的场景化驾驶常识，再配以AI实时计算，可以更加拟人化地融入社会交通流中。

训练的方式，也发生了很多变化，主要是从小模型少数据，转成大模型和真正的大数据，开始有1亿公里以上的辅助驾驶里程所产出的数据，因此在算力上，云端智算中心建设成为趋势。

这是3.0时代，智能驾驶技术需要解决的问题，也是毫末冲刺的方向。

以感知技术的实现方法为例，在城市场景，红绿灯是最为普遍场景，但对红绿灯识别也是个非常有挑战性的任务。

一方面，红绿灯比较小，是个典型的小目标检测问题；另一方面，红绿灯的状态会动态变化，比如闪烁；除此之外，红绿灯还有明显的地方特色，横着的、竖着的、三个的、五个的、有待转的、有倒计时的，各地形色各异。

最具挑战性的，还在于不同的灯，究竟具体管的是哪条路、管的哪条车道？

为此，基于充足的数据，毫末智行设计了针对红绿灯检测及绑路的双流感知模型，将红绿灯检测和绑路问题分解成两个通道。

此时毫末会通过训练生成feature map的卷积神经网络，获得真实图像中经常出现红绿灯位置的概率图，最后用空间注意力机制将二者结合，从而输出绑路后目标车道红绿灯通行状态。

另外在车道线识别方面，毫末还设计了自己的BEV Transfomer进行车道线识别。

根据介绍，毫末大举投入的Transformer模型效果惊人：通过自研的BEV Transfomer，毫末在城市道路上实现了多传感器融合车道线识别，号称能让中国没有不能识别的车道线。

方向比努力重要：自动驾驶三定律和数据驱动第一性原理

方向比努力更重要。

重要的不是所占据的这个地方，而是在不断前进的那个方向。

早几年，围绕自动驾驶商业化路径，究竟应该走“跨越式”发展方向，还是“渐进式”方向，不同玩家争论不休。

而在成立之初，毫末就在业内坚定地首次提出了自动驾驶商业发展三定律——“从低速到高速，从载物到载人，从商用到民用”，强调自动驾驶技术的“可行、可靠、可商用”。

这无疑是条透露着务实气质的渐进式落地路线，这一方面能让方案先搭载到量产车上，实现营收，从而做到商业闭环，另一方面又可以积累数据。

事实上，国内自动驾驶的商业化发展轨迹，也确实精准地贴合了毫末所提出的这三大发展定律，也因此让毫末少了许多技术路线摇摆的内耗过程。

中国智能驾驶进入2023年，毫末再次抛出观察：对于2023年的智能驾驶市场，今年是冲刺之年、大考之年。

数据显示，2022年度中国市场，乘用车L2及以上辅助驾驶前装搭载率升至29.40%，前装标配交付585.99万辆。

毫末则在去年预估，到2025年高级别辅助驾驶搭载率将超过70%。

毫末董事长张凯认为，这意味着智驾产品正在进入快速增长的全线爆发期，2023年是非常关键的一年。

首先，城市导航辅助驾驶产品在2023年将围绕量产上车发力，主要玩家的城市辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。

其次，行泊一体和末端物流自动配送产业商业化将成为自动驾驶公司深耕的重点。

在乘用车领域，搭载行泊一体功能的智驾产品将迎来前装量产潮；在末端物流自动配送领域，商超、快递等场景迎来爆发，2023年将在这些场景实现可持续商业化闭环。

这些都意味着，用户开始更高频地开启辅助驾驶功能，智驾行驶里程渗透率呈现指数级提升，将驱动着自动驾驶技术的快速迭代升级。

而早在这之前，围绕自动驾驶产品能力的打造，毫末就提出了数据驱动的第一性原理，又总结出了自动驾驶能力发展曲线F=Z+M（X），也正是对这一曲线的认知，让毫末的研发体系即使是在应对快速变化、五花八门的智能驾驶场景需求时，也能保持着高效、稳定的迭代。

在F=Z+M（X）中，F代表产品力，Z代表毫末第一代产品，M代表将数据转化为知识的函数，包括数据获取、表达、存储、传输、计算、验证，以及对成本和速度的影响，而最核心的M，就是MANA。

MANA是毫末在2021年底发布的中国首个自动驾驶数据智能体系，由BASE、TARS、LUCAS、VENUS四个子系统组成。

其中BASE是通用的数据基础服务、计算基础服务和支撑跨平台的中间件；

TARS是自动驾驶中的核心算法原型，包括感知、认知、地图以及支撑算法原型迭代的仿真系统；

LUCAS是提取数据价值，以数据驱动系统能力持续迭代的核心子系统，解决场景泛化，评测和部署的问题；

VENUS是数据可视化系统，提供全局的数据洞察等能力并且提供车辆管理、平行驾驶等平台工具。

基于MANA，毫末的五大能力逐步进化。

以自动标注能力为例，人工智能算法的进步离不开大量的数据标注工作，如果在当下这个智驾产品进入大规模量产的阶段，能提高数据标注的效率，无疑能拥有更多的成本优势。

根据介绍，毫末早以闭环思路、无监督自动标注算法等为支撑，推出了自动标注，性能较市场上很多竞品高很多倍。

更值得一提的，是为了让GPU不再等待数据，让数据转化成知识的速度更快，毫末在2023年1月发布了国内自动驾驶行业最大智算中心雪湖·绿洲，实现每秒浮点运算达到67亿亿次，存储带宽达到2T/秒，通信带宽则达到800G/秒。

通过升级以上计算、存储、通讯方面的配备，目前雪湖·绿洲的训练效率提升了100倍。

再次引领新一代：DriveGPT雪湖·海若生成式大模型

感知要解决的是从传感器信号中重建客观世界的问题，而认知要解决的是从客观世界到驾驶动作的映射问题。

在认知领域，毫末在今年4月份做了项关键的升级——发布自动驾驶生成式大模型DriveGPT，中文名：雪湖·海若，这是业内首次将 GPT 应用到自动驾驶领域。

GPT的全称是生成式预训练Transformer模型，本身是一种非常通用的建模范式，能应用的领域非常之多。

其实在ChatGPT大火之前，GPT就已经用在了其他领域，比如2021年7月的CodeX，也就是CodeGPT，可以用于代码生成，提升写代码的效率，还有2021年12月发布的WebGPT，可以让GPT利用搜索引擎，主动搜索结果并汇总整理出答案，也就是近期微软发布的New Bing搜索。

从本质上看，GPT是在求解下一个词出现的概率，即每一次调用都是从概率分布中抽样，并生成一个词，这样不断地循环，就能生成一连串的字符，用于各种下游任务。

而毫末发布的DriveGPT，也是在求解下一个Token（词）的概率，通过每一次调用都相当于根据前序Token序列生成一个Token，这些Token就相当于自然语言处理中的一个词语，只不过这里的Token是用来描述驾驶场景的。

一连串的Token拼在一块就是一个完整的驾驶场景时间序列，这样就能将自动驾驶场景Token化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

毫末的目标，则是在DriveGPT这样一个统一的生成式框架下，做到将规划、决策与推理等多个任务全部完成。

目前，毫末DriveGPT主要用于解决自动驾驶的认知决策问题，后续会将毫末多个大模型的能力整合到DriveGPT中。

“这部分的工作，即使放眼全球也是非常独特和创新的。”顾维灏称。

这就需要通过引入海量真实人驾接管数据建立RLHF（人类反馈强化学习）技术，对自动驾驶认知决策模型进行持续优化。

据介绍，目前毫末DriveGPT已实现模型架构与参数规模的升级，参数规模达到1200亿，预训练阶段引入4000万公里量产车驾驶数据，RLHF阶段引入5万段人工精选的困难场景接管Clips。

除此之外，要想持续训练DriveGPT，也离不开算力的支持。

除了前文提及的建立智算中心，毫末还对训练和推理框架进行了三方面升级：

第一个是训练稳定性的保障和升级，在大模型训练框架的基础上，毫末与火山引擎共建全套训练保障框架，最终实现异常任务分钟级捕获和恢复能力，可以保证千卡任务连续训练数月没有任何非正常中断；

第二个是弹性调度资源的升级，毫末将增量学习技术推广至大模型训练框架，构建一个大模型持续学习系统，研发了任务级弹性伸缩调度器，实现分钟级调度资源，集群计算资源利用率达到95%；

第三个则是吞吐效率的升级，通过引入火山引擎提供的Lego算子库实现算子融合，端到端吞吐提升84%。

而毫末DriveGPT的最终目标，是做到感知决策一体化，实现端到端自动驾驶。

相比于传统模块化的方案，端到端自动驾驶，是基于人类根据场景信息直接输出控制信号这一驾驶过程，通过端到端网络直接输出车辆的轨迹规划或控制信号，最优性更佳，同时人为设计更少，不过因此也对算法提出了更高的要求。