毫末智行开自动驾驶公司先河：自建智算中心！辅助驾驶「量产第一」，城市NOH 明年落地百

贾浩楠发自凹非寺

量子位 | 公众号 QbitAI

“对软件有理想的人应该做属于自己的硬件”。

乔布斯的信条开创了时代，这样的认知，被马斯克以自建超算自研平台等方式在特斯拉践行。

现在，同样的剧本正在中国自动驾驶行业上演。

毫末智行——被业内以“自动驾驶量产第一”认知的创业公司——在 AI Day上最新发布：智算中心。

完全服务自动驾驶研发，而且是自建。

△毫末智行CEO顾维灏（右）和火山引擎总裁谭待

这是中国首个由自动驾驶公司建立的智算中心。

经历2022年行业竞速后，量产智能驾驶进城争夺战已经打响，而决定城市辅助驾驶落地、体验和发展速度的关键保障，就是智算中心。

特斯拉已经为FSD准备好了DOJO智算中心；国内，同样以重感知轻地图展现大规模落地的毫末智行，现在也把城市NOH背后的保驾重器推到了台前。

所以毫末智行的智算中心，会如何发挥作用？

为什么是毫末，率先向“重”而行——成为首个建立智算中心的自动驾驶公司？

首个自动驾驶公司建立的智算中心？

毫末智行自建的智算中心，是与字节跳动旗下火山引擎合作的，由自动驾驶业务方“承包”相当部分的算力资源，按照自动驾驶开发的特定要求，建成专门的算力集群。

展开全文

所谓“智算中心”，并不是传统意义上的超级计算机。

自动驾驶、或者说智能汽车上的核心功能，其实都是AI。具体说，是大规模的深度学习算法。

而无论是训练，还是测试这样的模型，扮演主角的不再是传统CPU的逻辑推理能力，而是以AI加速器为主的浮点计算能力，GPU则是当前AI加速器的主流。

△毫末智行董事长张凯

所以，智算中心的第一个特征，就是以大规模GPU算力作为AI模型迭代的基础。

第二个特征，是与自动驾驶业务深度结合，智算中心提供了针对自动驾驶应用特征的算力集群、性能加速工具和AI大数据平台，使得模型训练性能、GPU资源利用率和算法研发效能都大大提升。

毫末智算中心 MANA OASIS算力 0.67 EFLOPS（每秒6.7*10 17 次浮点运算）*。

毫末MANA OASIS的算力几乎全部为自动驾驶服务。其架构也根据自动驾驶的业务特征做了专门安排。

自动驾驶任务训练的特点，是文件比较多较杂，而且多为视频、图像数据。自动驾驶的用户每一次接管，都会形成一个独立的小文件。车多用户多，就形成了自动驾驶数量超过百亿的数据集。

所以，第一个要求是高性能地访问和传输这些数据，存储带宽需要达到每秒2T的能力。

此外，毫末智行的不同自动驾驶模型搭载在不同的服务器上，而不同服务器的通信能力也很关键，MANA OASIS的带宽设计实现了800G/秒。

计算、存储和通信，是毫末MANA OASIS的基础能力。

在AI模型训练的优化上，火山引擎也提供了针对性的基础优化。

比如，AI不断演进发展，新的模型、网络结构层出不穷。前几年在NLP领域兴起的Transformer，现在成了自动驾驶最被看好的技术，也是毫末目前最主要“杀手锏”。火山引擎为毫末打造的智算中心，可以支持包括Transformer在内的超过200组网络结构。

此外，超过500个高性能AI算子、高带宽网络通讯、专门服务超大模型任务的数据并行、流水并行和稀疏化并行等等，MANA OASIS都能支持。

根据毫末的介绍，目前千亿参数的AI大模型的一个完整训练——收敛周期，只需要一周，效率提升了100倍。

毫末OASIS，也是字节跳动首次在智算中心上的对外技术输出。基本架构特征，和毫末之前一直展现出的技术路线完全吻合：以超大模型、超大数据，快速迭代为基础的自动驾驶研发。

AI技术To C应用最成功的公司，和量产自动驾驶技术第一名联手，毫末OASIS的架构特征背后体现的是自动驾驶发展趋势：

数据层面，以“帧”为基本单位的数据组织方式，正在向标注效率、数据利用率更高的的Clip形式（一段包含多帧的连续视频）转变。

Cilp带来了更大的数据量，需要更大规模的AI模型，以及更高的迭代效率。也就是说，对自动驾驶的图像视频处理技术要求更高了。

数据层面，以“帧”为基本单位的数据组织方式，正在向标注效率、数据利用率更高的的Clip形式（一段包含多帧的连续视频）转变。

Cilp带来了更大的数据量，需要更大规模的AI模型，以及更高的迭代效率。也就是说，对自动驾驶的图像视频处理技术要求更高了。

而毫末的量产自动驾驶落地路线，无论是重感知和大模型应用，在智算中心里，有了更加广阔的舞台。

毫末智算中心能做什么？

OASIS的核任务只有一个：加速大模型训练。

具体的说是5方面大模型的训练，这是毫末城市NOH落地的技术保障，也是毫末NOH领先的力量之源。

视频自监督大模型

所解决的问题是怎么样能够更高效地建设一个Clips的数据集。

过去的自动驾驶训练数据都是按帧来组织的，frame by frame标注出需要的目标，比如行人、乘用车等等。但每帧图像只能标注一种目标，浪费了图像包含的其他目标价值。

Clips的目的就是利用标注的数据，把未标注的数据自动化地标注出来。

视频自监督大模型首先使用大量未标注的数据形成了这样一个基础大模型，然后再用少量已标注的数据做启发式的学习。通过一个自我编解码的模型，完成那些90%未标注数据自动化的标注。

标注完了之后，一段视频里面所有的障碍物都会连续在视频里面标注出来。之前没有发现的数据，能够通过这样的数据形态和新的标注方法把它挖掘出来。

3D重建大模型

毫末智行介绍，字节跳动其实已经积累了很多电商AI应用的经验，比如一个商品照几张照片，就能够切换视角，还原出3D模型。背后其实是NeRF，这个模型的主要功能就是3D建模和新视角的生成。

毫末智行也将这个技术应用到自动驾驶上。用NeRF模型对回传Clip做一个重建。建出来之后，把它应用在数据补充上。

3D重建大模型主要的作用是在3D场景下，通过不同视角的转换，生成2D图像中没有的稀缺数据。

另外，也可以通过在3D场景中使用生成网络，改变场景的光线和纹理，生成新的数据，降低感知模型的错误率。

它的意义仍然是降低人工标注成本，以及生成更多有价值的数据。

多模态互监督大模型

自动驾驶一直面临一个挑战：真实的环境里面，会面临很多未知的障碍物，不可能把所有的东西都标注上，该怎么办？

这其中，多模态体现在首先用视觉模型做BEV特征的提取和通用结构检测。

此外还会用用激光雷达的点云图做一次监督校验，持续地提升视觉检测的结果。

动态环境大模型

毫末智行的技术路线重感知、轻地图。这也是目前绝大部分自动驾驶玩家认可的方向。

高精地图尽管表面上看对自动驾驶系统很关键，但背后有着政策监管、法规准入、数据采集、信息更新等等问题。

尤其是在国内，基建更新速度飞快，高精地图为及时准确性付出的成本，难以估算。

毫末的动态环境大模型，首先还是用BEV环视生成环境基础特征，然后把现有基础导航地图的必要信息输入Topology Attention网络里面对不同的分岔点、合流点做预测和回溯，把合适的车道拓扑预测出来，然后交给决策系统。

人驾自监督认知大模型

毫末智行的自动驾驶研发，会基于很多用户真实的驾驶行为训练。

但问题是老司机毕竟是少数，如果针对这样的大规模数据群体训练，很可能最终得到的是一个平均值。在打磨AI老司机的过程中，毫末借鉴了目前大火的ChatGPT的思路。

ChatGPT是在GPT3上面做的衍生，最后一代GPT3有1500亿个参数，在模型的认知理解能力上通过量变达到了质变。核心的方法其实就是用人类行为的反馈做强化学习。

比如针对某个问题，先通过人类的回答训练一个基础的网络。对于同类的问题，将多个答案做一个排序，让AI知道哪个答案更好。这样就会训练出来一个价值模型。

有了价值模型后，AI就可以在生成的过程中做持续的训练，做持续的迭代，最后把最好的结果筛出来，把不好的降下去。

对于自动驾驶来讲，毫末规划了一套规则，用户如果按照建议的方式驾驶，过程中不接管，就是一个Good Case。如果接管了，就是一个Bad Case。把Good Case和Bad Case训练的模型加入大模型里面，就能形成这种强化训练结构的闭环。

毫末说，之前计算资源有限，对于以上5个大模型的迭代，总是不得不保守。

而现在借助于智算中心，计算资源充沛，可以把这五个大模型正式修炼出来，朝着自动驾驶“数据驱动”的3.0时代迈进。