BEV全称Bird'sEyeView,即鸟瞰图,该算法旨在将多传感器收集的图像信息投射至统一3D空间,再输入至单一大模型进行整体推理。相较于传统的摄像头图像,BEV提供了一个更贴近实际物理世界的统一空间,为后续的多传感器融合以及规划控制模块开发提供了更大的便利和更多的可B
大模型是当前AI领域最为火热的前沿趋势之一,可赋能自动驾驶领域的感知、标注、仿真训练等多个核心环节。在感知层,以特斯拉为首,"BEV+Transformer"范式已开始在自动驾驶领域得到广泛使用,可有效提升感知精确度,利于后续规划控制算法的实施,促进端到端自动驾驶框架的发展。 BEV全称Bird'sEyeView,即鸟瞰图,该算法旨在将多传感器收集的图像信息投射至统一3D空间,再输入至单一大模型进行整体推理。相较于传统的摄像头图像,BEV提供了一个更贴近实际物理世界的统一空间,为后续的多传感器融合以及规划控制模块开发提供了更大的便利和更多的可能。具体来说,BEV感知的优势在于:1)统一了多模态数据处理维度,将多个摄像头或雷达数据转换至3D视角,再做目标检测与分割等任务,从而降低感知误差,并为下游预测和规划控制模块提供更丰富的输出;2)实现时序信息融合,BEV下的3D视角相较于2D信息可有效减少尺度和遮挡问题,甚至可通过先验知识"脑补"被遮挡的物体,有效提高自动驾驶安全性;3)感知和预测可在统一3D空间中实施,通过神经网络直接完成端到端优化,可有效降低传统感知任务中感知与预测串行的误差累积。 Transformer的注意力(Attention)机制可帮助实现2D图像数据至3DBEV空间的转化。Transformer是GoogleBrian团队在2017年提出的神经网络模型,起初用于机器翻译,随着技术的发展开始进军图像视觉领域,目前已成功涉足分类、检测和分割三大图像问题。据汽车之心微信公众号介绍,传统CNN模型的原理是通过卷积层构造广义过滤器,从而对图像中的元素进行不断地筛选压缩,因此其感受域一定程度上取决于过滤器的大小和卷积层的数量。随着训练数据量的增长,CNN模型的收益会呈现过饱和趋势。而Transformer的网络结构在嫁接2D图像和3D空间时借鉴了人脑的注意力(Attention)机制,在处理大量信息时能够只选择处理关键信息,以提升神经网络的效率,因此Transformer的饱和区间很大,更适宜于大规模数据训练的需求。在自动驾驶领域,Transformer相比于传统CNN,具备更强的序列建模能力和全局信息感知能力,目前已广泛用于视觉2D图像数据至3D空间的转化。 除感知层外,大模型还有望显著提升后端训练中数据清洗标注的效率,并助力生成新场景以赋能仿真训练。训练模型在收集到传感器传送回的图像数据后,需先对数据进行清洗,再对其中的车辆、行人、道路标识、车道线等元素进行标注。相较于此前的人工标注,大模型可以大幅提升工作效率。理想汽车创始人李想在中国电动汽车百人会论坛(2023)的演讲中表示,此前理想一年要做大概1000万帧自动驾驶图像的人工标定,年成本接近1亿元,但使用软件2.0大模型进行自动化标定后,效率是人的1000倍。毫末智行也2023年4月第八届AIDAY上表示,其最新推出的DriveGPT可将交通场景图像的标注费用从行业平均约5元/张降至约0.5元/张。Meta最新的图像分割模型SAM(SegmentAnythingModel)在对图像和视频中的物体进行识别分割时展现出了强大的能力,且具有零样本性能,即能够对从未训练过的图片进行精准分割,未来也有望赋能自动驾驶训练所需的图像数据积累。 在"BEV+Transformer"趋势下,算法复杂度、数据规模以及模型参数均呈指数级提升,推动自动驾驶芯片向着大算力、新架构以及存算一体等方向演进。 1、大算力: 向数百TOPS算力演进。传统L1/L2辅助驾驶所需处理的数据量小且算法模型相对简单,因此以Mobileye为代表的单目视觉+芯片算法强耦合的一体机方案即可满足需求。但领航功能作为高阶辅助驾驶的代表,需要"更强算力+软硬件解耦的芯片+域控制器"来满足海量数据处理与后续持续OTA迭代的需求。高速领航开始向20万以下车型渗透,15-30TOPS可满足基本需求,但若想要"好用"或需要30-80TOPS。城区领航的场景复杂程度和技术实现难度更高,目前普遍需要搭载激光雷达,芯片以英伟达Orin、华为MDC和地平线J5为主,算力配置普遍超200TOPS。而在应用"BEV+Transformer"技术后,多传感器前融合以及2D至3D空间的转化需要AI芯片具备更强的推理能力,因此也需要比以往更大的算力支撑,包括更高的AI算力、CPU算力和GPU算力。 2、新架构: 加强并行计算能力和浮点运算能力。相较于CNN/RNN,Transformer具有更强的并行计算能力,可加入时间序列矢量,其数据流特征有显著差别,浮点矢量矩阵乘法累加运算更适合采用BF16精度。Transformer允许数据以并行的形式进行计算,且保留了数据的全局视角,而CNN/RNN的数据流只能以串行方式计算,不具备数据的全局记忆能力。传统AI推理专用芯片大多针对CNN/RNN,并行计算表现不佳,且普遍针对INT8精度,几乎不考虑浮点运算。因此想要更好适配Transformer算法,就需要将AI推理芯片从硬件层面进行完整的架构革新,加入专门针对Transformer的加速器,或使用更强的CPU算力来对数据整形,这对芯片架构、ASIC研发能力,以及成本控制都提出了更高的要求。以特斯拉、地平线为代表的厂商均"重ASIC(即AI推理专用芯片),轻GPU"。特斯拉引领BEV+Transformer路线,以专用NPU(神经网络处理器)承担AI运算,在NPU设计之初便进行了针对性优化。而地平线等后来者或需要在下一代芯片中对AI推理芯片架构进行针对性优化。 3、存算一体: SoC芯片需配置高带宽存储器(HBM)或SRAM,并加速向存算一体靠拢,解决大算力下的数据吞吐量瓶颈。模型越大,内存对AI加速器就越重要,以频繁地读取权重矩阵或训练好的模型参数。据佐思汽研介绍,Transformer中的权重模型超过1GB,对比传统CNN的权重模型通常不超过20MB。模型参数越大,就需要更高的带宽,一次性读出更多参数。存算一体可分为近存计算(PNM)、存内处理(PIM)以及存内计算(CIM),存内计算则接近存算一体,当前PNM已广泛用于高性能芯片,即采用HBM堆叠,2.5D封装,从而与CPU集成,而PIM和CIM仍处在发展中。以特斯拉FSDSoC为例,其采用总带宽为68GB/s的8颗LPDDR4内存,而集成在NPU中的SRAM可达到32MBL3缓存,带宽达2TB/s,远超市面上同类芯片。而据汽车之心微信公众号,特斯拉在最新HW4.0上的二代FSDSoC上使用了16颗GDDR6,在内存用料上继续引领行业。
欲了解更多中国智能驾驶行业的未来发展前景,可以点击查看中研普华产业院研究报告《2023-2028年中国智能驾驶行业市场深度全景调研及投资前景分析报告》。
关注公众号
免费获取更多报告节选
免费咨询行业专家

2023-2028年中国智能驾驶行业深度分析及投资前景预测报告
智能驾驶即利用人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让汽车能够部分或全面感知周围环境并进行自动安全地驾驶,有效弥补了人类驾驶员存在的缺陷。国际汽车工程师协会把汽...
查看详情
我国算力产业的发展情况近期,工业和信息化部联合有关部门印发了《算力基础设施高质量发展行动计划》,大家都很关注,...
消费电子一般指消费电子产品,是指围绕着消费者应用而设计的与生活、工作娱乐息息相关的电子类产品,最终实现消费者自...
作为鞋类市场近些年兴起的一个细分领域,老人鞋一直呈快速发展态势。老人鞋,也叫老年鞋,是近些年鞋类市场上兴起的一...
船舶工业是现代综合性产业,也是军民结合的战略性产业,能够为海洋开发、水上交通运输、能源运输、国防建设等提供必要...
中国期货业协会最新数据显示,5月全国期货市场成交量为8.25亿手,成交额为50.37万亿元,同比分别增长75.16%和25.60%...
集装箱租赁是指集装箱租赁公司与承租人,一般为海运班轮公司,铁路、公路运输公司等,签订协议,用长期或短期的方式把...
微信扫一扫