如何更多、更快、更高效地运转数据闭环,将成为引领中国智能电动汽车产业之智驾发展的关键一招。
作者丨安晓雅
编辑丨杨永平
随着近两年技术快速迭代、用户教育越来越成熟,自动驾驶发展的重心已从技术研发的比拼来到商业化落地的竞争。城市内日常场景下的智能驾驶体验越发受到关注,自2022年起,头部车企纷纷宣布城市场景NOA(Navigate on Autopilot,自动辅助导航驾驶)的量产落地计划。亿欧智库预测,2025年中国城市NOA前装市场规模将达到76亿元。
实现城市场景NOA是自动驾驶商业化向前迈出的巨大一步。具体来讲,自动驾驶能力的实现需要高效的算力、完善的算法模型以及大量有效的数据。
过往智驾的发展重点由技术驱动,各类玩家仍处在备赛的基本阶段,不断增强技术实力,在实验室里打磨做题技巧;技术逐步成熟的同时,收集更多数据成为突破研发瓶颈的关键,测试车队逐步壮大,智驾玩家在模拟小考中以赛代练。
2023年,中国新能源汽车的竞争赛进入淘汰阶段,智驾玩家卯足了劲,应付普通道路已经不足为奇,雨雪天气、闹市街头,谁能应对更多偏题怪题,谁就能赢得更多消费者的心。
积累数据越发重要的同时,数据流通各环节也逐步连结,无论是技术上的拓展,还是产业内的协同,自动驾驶数据闭环逐步形成。
面对数以PB、EB计的车端数据,如何施以有效收集、有效利用、合规管理,智驾做题家们纷纷打造各具优势的数据闭环,以巧劲突破无穷题海。
自动驾驶数据闭环:飞轮到底怎么转?
商业模式健康运营的关键,在于搭建完备、自主的飞轮,数据闭环便是自动驾驶量产落地的核心飞轮。
由于自动驾驶所需的场景数据属于长尾数据,需要尽可能多地涵盖corner case,算法模型的升级迭代也需要新场景数据的不断投喂,数据的重要性日益凸显,从主机厂到Tier 1,自动驾驶产业上下游各玩家都将目光投向了自动驾驶数据闭环的打造。
依据全国信息安全标准化技术委员会发布的《汽车采集数据处理安全指南》,汽车采集数据指通过汽车传感设备、控制单元采集的数据,以及对其进行加工后产生的数据,主要包括车外数据、座舱数据、运行数据以及位置轨迹数据。
汽车采集数据经过标注、清洗、筛选等处理,形成有效数据集,进一步存储在云端服务器中,之后传输至算法模型,经过训练后部署到车端进行应用验证,形成一套由数据驱动算法迭代、进而驱动自动驾驶能力升级的闭环模型。
基于平台优势与技术积累,业内主要有数据平台企业、芯片厂商、云服务供应商、自动驾驶Tier 1在构建自动驾驶数据闭环模型,也出现了一批以科技优势入局的数据闭环方案提供商,另外有少许主机厂完成了闭环。
特斯拉:
影子模式助力数据引擎,本土化仍有待时日
自动驾驶圈的明星企业特斯拉,据传即将面向中国市场开放FSD(Full Self Drive,完全自动驾驶)功能。这一传闻无异于又一条“鲇鱼”,进一步催动了国内自动驾驶市场。在此之前,特斯拉已经建立起一套成体系的数据处理方式,并且在量产车上应用,这一点相比其他车企有明显优势。
众所周知,自动驾驶路测数据可以从测试车和量产车两种渠道收集,特斯拉以年交付超百万辆的巨大体量,相比测试车能够更快、更多地收集路面交通状况、驾驶操作场景等等数据。但反过来讲,也对数据处理的效率和能力提出了更高的考验。纯视觉的技术路线又进一步提高了对数据的精度与鲜度的要求。
其中,数据引擎作为处理数据的平台,通过对数据的标注、训练、部署、采集、评估等,将AI技术应用于自动驾驶中。“影子模式(shadow mode)”协助采集更加真实、丰富的数据,从源头处为这一引擎的运转提供了丰沛的燃料。
顾名思义,影子模式在车辆驾驶过程中如影随形,作为一种测试机制,在不影响车辆实际操作的情况下,对真实场景中的车辆操控与运行进行模拟测试,将模拟运行结果对真实场景下的运行结果进行对比分析,从二者的不一致当中重点关注corner case数据,通过清洗与标注,与其他真实或仿真的数据结合构成数据集,继而训练算法模型,并将训练后的数据部署至车辆,完成自动驾驶系统的循环验证与迭代升级。
影子模式极大地利用了特斯拉量产车辆的规模优势,高效地收集了大量真实、有效的驾驶数据,同时免去了自建测试车队、雇佣工程师运营及管理测试车队以及对于数据处理和泛化的迂回,数据有效性极大增强的同时,也降低了维护与运营数据闭环的成本。
每一辆特斯拉汽车的价值,不仅在于销售利润,同时还在于免费、持续的数据收集。根据业内人士分析,特斯拉预估已收集超过30亿英里的数据,这些数据源源不断地喂养着算法模型,以更短的数据通路积累更多驾驶场景,推动实现自动驾驶能力的迭代。
除了大规模收集自动驾驶真值数据,特斯拉还进行了极端仿真场景建设、数据标注自动化等多个节点的优化,在控制成本的同时,推动自动驾驶数据闭环高效、自动运转。
尽管如此,相较国外交通状况,中国道路交通的长度与复杂度都成倍增长,即使特斯拉FSD入华,也仍然需要相当一段时间来收集本土数据,融合我国的道路交通法规,训练“中国特色”的数据闭环。而这一过程,正是留给中国本土玩家的至关重要的窗口期。
毫末智行:
构建关系曲线,大模型加速闭环运转
脱胎于长城汽车的自动驾驶解决方案供应商毫末智行,距离车端数据的收集与落地本就更近一步,在成立初期便对数据驱动行业发展有所关注。毫末基于数据规模与自动驾驶产品能力之间的关系,建立了二者之间的相关性曲线,同时打造了毫末模式下的数据闭环方案。
无独有偶,毫末智行与特斯拉同样采用Transformer大模型对算法模型进行训练,使算法模型具备拟人化思维,输出更加“老司机”的驾驶操作与规控策略,结合仿真系统中的验证,将训练结果部署于常规场景,逐步实现对各类corner case场景的拟合。
但与之不同的是,毫末智行采取了自监督学习的方式搭配增量式学习训练平台,提高数据训练的效率与精度。自监督学习引入后,提前于感知系统将未标注的数据进行场景构建,学习其中的通用底层特征,提高了后续数据检索、匹配、筛选的效率。
增量式学习训练平台的搭建,在限定数据规模的前提下,对新获取的数据预先筛选,与部分原有数据进行耦合,在控制数据规模不会过大到影响处理效率的同时,又保证了新数据的鲜度与价值。据了解,采用增量学习平台后,整体算力节省80%,响应速度提升了6倍,对于瞬息万变的自动驾驶场景来讲,这样的速度增长对毫末自动驾驶数据闭环的助力是不言而喻的。
2023年4月,在第八届毫末AI Day上,毫末创始人顾维灏发布首个应用GPT模型和技术逻辑的自动驾驶算法模型DriveGPT,中文名雪湖·海若。DriveGPT的上车,建立初始模型和反馈模型进行相互训练,不仅能够做到智能捷径推荐、困难场景自主脱困等功能,还能就同一目标给出多种方案供系统决策,结合4000万公里的数据里程,毫末的MANA数据智能体系为智能驾驶产品的开发提供越来越趋近于“老司机”的能力。
毫末智行董事长张凯对于数据闭环也表示出重视和信心:“2023年智驾产品进入全线爆发期,毫末不断进步的数据驱动的六大闭环能力将近一步加速毫末进入自动驾驶3.0时代的步伐并形成相应的护城河。”
百度Apollo:
甲级图商资质保障合规,工具链解耦服务下游
数据闭环的运转除了追求高效,同样还需要追求安全,而数据采集作为整个流程的第一环,采集方式和采集来源的合法合规尤为重要。
受到法律法规以及成本方面的约束,行业内近来纷纷转向“轻高精地图”、“无高精地图”的发展路径,但自动驾驶的技术迭代仍然离不开地图数据的辅助。依据相关文件,自动驾驶地图属于导航电子地图的新型种类,持有导航电子地图制作甲级测绘资质的公司才可以进行相关地理数据的大规模收集与处理。
截至2022年9月,目前全国仅有19家左右的企业具备甲级资质,主要集中在官方测绘单位、图商、主机厂以及自动驾驶服务供应商。百度作为甲级图商的一员,提出了更注重合规安全的数据闭环解决方案。
依托自身的甲级测绘资质以及自建的采集车队,百度为下游车企提供的道路数据采集服务既增强了安全保障,又降低了运营成本。秉持“原始数据不出车、测绘数据不出云、测绘成果不关联、资质图商全管控”的合规思路,百度对车辆采集数据采取触发式采集,并在图商监管下的智能汽车数据专有云中进行存储、脱敏、审核、训练,不仅搭建起服务于自动驾驶能力的数据闭环,同时形成了保障数据合规的闭环模式。
百度作为科技公司入局汽车行业,一向采取“可零可整”的友好合作姿态。除了为主机厂提供整体合作方案,百度将智驾数据管理平台、智能标注平台、智驾研发平台、云仿真平台整合打包为自动驾驶工具链平台,灵活满足主机厂需求。
除此之外,几乎每家自动驾驶解决方案供应商都打造出了独家的数据闭环解决方案,在数据采集逻辑、数据真值筛选、训练场景仿真、算法模型迭代等每个环节都用尽全力,努力实现低成本、大规模、高质量、高效率的数据闭环。
数据闭环隐忧:
安全合规、隐私保护是永远的红线
可以看出,产业内遍地开花,自动驾驶数据闭环的原理与模型也已经不是掌握在少数人手里的行业机密,数据对自动驾驶产业的驱动力已经成为每一位玩家绕不开的关键。看似顺滑的运转实际上也有很多断层需要连接,数据确权就是业内一直悬而未决的话题。
相较于传统的驾驶方式,自动驾驶的责任主体更加多元化,过往也有多起案例表现出责任追究的模糊性,尽管法律法规正在逐步完善,但目前仍是在一定原则指引下的“一事一议”,尚无明确定论。同样地,自动驾驶的数据所有权也处于“人人所有”却又“无人所有”的灰色地带中。
除此以外,数据脱敏、加密、传输、处理尚未形成密不透风的安全网,仍然有许多隐私保护与合法合规的孔洞有待业内玩家填补。2022年,国家网信办联合发改委、工信部、公安部、交通部,共同发布了《汽车数据安全管理若干规定(试行)》,文件提出,在汽车数据处理活动中,坚持“车内处理”、“默认不收集”、“精度范围适用”、“脱敏处理”等数据处理原则,为自动驾驶数据的管理收紧了准绳。
结语
完备的闭环模型需要大规模、高质量、多场景的数据,高算力、高效率、相对低成本的算法模型,趋向自动化的数据标注与处理水平,高速率、低成本的传输速率与存储模式,再加上安全合规的保驾护航,在新数据的喂养下飞轮不断循环向前,实现自动驾驶的自动化成长。
这场数据的题海之战在所难免,仅靠蛮力和耐力很难在争分夺秒的汽车产业淘汰赛中存活。想要在大考中拔得头筹,不仅需要多做题,更要会做题。考验智驾做题家们的,依然是算力、算法以及更多商业运营能力的水平。
但独木不成林是永恒的真理。亿欧汽车认为,不同企业各自的肌肉秀只是发展初期的跑马圈地,打造自动化、高效率的自动驾驶数据闭环绝非一己之力可为之。
数据闭环的每一步推进都是成本和效率的博弈,每一次博弈都是科技理性与价值理性的融合,每一场融合也将必然需要上下游企业数据共享、技术开源、生态共建。
纵观自动驾驶的发展,2023年将是技术革命与商业量产的分水岭,数据闭环驱动商业闭环将成为行业共识。未来,自动驾驶数据闭环方案将成为中国新能源汽车发展的标配,而孰优孰劣,市场销量将给出最终的评判。
亿欧智库发布《2023中国智能电动汽车车载通信研究报告》,本报告以车载总线通信与车载无线通信划分产业领域,展示了业内前瞻技术的服务能力以及应用范围,分析了不同技术的通信能力以及应用现状,并分别对各细分领域的发展做出洞察,同时为智能电动汽车车载通信产业的整体发展方向做出预判。
欢迎关注公众号,添加小助手后回复报告名称获取完整版
文章引用微信公众号"亿欧网",如有侵权,请联系管理员删除!