百度研究院RAL团队刷新nuScenes三维目标检测公开挑战赛成绩彰显自动驾驶技术实力

2021-06-23 17:13:42

随着自动驾驶技术在不同场景下的持续落地，目标检测作为其中的一项核心模块，对检测算法的精度和稳定性要求越来越高。近日，在国际机器人技术与自动化会议（ICRA 2021）举办的第四届nuScenes三维目标检测挑战赛中，来自百度研究院的机器人与自动驾驶实验室(RAL)团队在三维物体检测任务的多项评价指标中荣获第一，并将关键指标nuScenes Detection Score (NDS)从上一届的71.4%提升至74.9%，刷新了三维目标检测比赛成绩。

ICRA2021 nuScenes三维物体检测挑战赛官方排行榜

榜单地址：https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Any

第四届nuScenes目标检测挑战赛吸引了来自全球各地的多支参赛队伍，不仅有百度、华为、滴滴等知名企业，还涵盖了德克萨斯大学奥斯汀分校、上海交通大学、中国科技大学、哈尔滨工程大学等国内外重点高校。

本届挑战赛使用的nuScenes[1]数据集是自动驾驶目标检测领域中最流行的公开数据集之一，集成了多种传感器（如相机，LiDAR, Radar等），提供了包含二维、三维物体标注、点云分割、高精地图等丰富的标注信息。数据集整体共包含1000个场景、140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框，数据规模和难度远超之前的自动驾驶数据集KITTI。

百度研究院的机器人与自动驾驶实验室(RAL)团队在比赛中提出了一种多模态和多任务的信息融合框架FusionPainting[3] ,并且结合多模型融合等技术，推出了CenterPoint-Fusion的技术方案，将评价的关键指标NDS从上一届冠军的71.4%提升至74.9%，全类平均正确率（mean Average Precision)从上一届冠军的67.1%提升至72.4%。凭借本次挑战赛中多个评测指标第一的优异成绩，百度在自动驾驶领域的技术实力再次彰显。

CenterPoint-Fusion算法优势何在？

激光雷达（LiDAR）可以直接以三维点云的形式提供周围场景的深度信息，因此广泛的应用于自动驾驶的感知模块中。但是相比于图像数据，激光点云具有密度稀疏，纹理信息不丰富的缺点,因此在检测任务中对于物体的类别分辨往往不准确。

利用相机和Lidar之间的标定参数，PointPainting[2]将图像的语义信息附加到点云上，再利用融合的点云信息进行物体检测，能有效的提升检测的精度。但是由于图像分割器的特征图尺寸大小的限制，分割结果在物体的边界上有模糊效应，再反投影到3D点云上时会造成物体边界的点云类别信息不准确，从而影响最终检测的效果。

基于多模态自适应融合的FusionPainting流程图

相比于二维图像分割有物体边界模糊的缺点，直接在三维点云上进行分割却能得到清晰的物体边界。为了有效的解决这种边界模糊的问题，百度提出了融合二维图像分割与三维点云分割结果的FusionPainting框架[3]。对于每一个三维点，既通过二维图像分割获得语义信息，又通过三维点云分割获得语义信息，最终通过一个自适应的注意力模块来对两种信息进行有效的融合。融合后的点云可以作为任何三维物体检测器的输入，从而最终得到三维物体检测结果。

在此框架的基础上，百度进一步添加了多模型融合、半监督学习、测试阶段数据增强等技术，充分发挥多模态和多模型的作用，进一步提升了目标检测的效果。

nuScene数据集三维物体检测检测效果示例，其中不同的颜色代表不同类别的物体

本次在nuScenes三维目标检测挑战赛中夺冠的百度研究院机器人与自动驾驶实验室，在自动驾驶感知和机器人领域有着丰富的技术积累和成果输出，研究成果发表在CVPR、ICCV、ECCV、NeurIPS、AAAI、ICRA 与IROS等顶级国际学术会议和《Science Robotics》，《IEEE T-PAMI》、《IEEE T-IP》、《IEEE T-ITS》、《SAGE IJRR》等顶级期刊上。

百度布局自动驾驶以来，不仅在自动驾驶技术和智能驾驶领域市场占据了先发优势，并通过持续深耕，在技术创新和应用落地上也取得了令人瞩目的成就。在自动驾驶这场改变人类轨迹的长跑中，百度还将继续技术创新，做这条道路上坚定的领跑者。

参考文献：

Caesar, Holger and Bankiti, Varun and Lang, Alex H and Vora, Sourabh and Liong, Venice Erin and Xu, Qiang and Krishnan, Anush and Pan, Yu and Baldan, Giancarlo and Beijbom, Oscar. nuscenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.

Vora, Sourabh and Lang, Alex H and Helou, Bassam and Beijbom, Oscar. Pointpainting: Sequential fusion for 3d object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4604-4612.

Shaoqing Xu , Dingfu Zhou, Jin Fang, Junbo Yin, Bin Zhou and Liangjun Zhang. FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object Detection. Accepted by IEEE International Conference on Intelligent Transportation Systems (ITSC), 2021.