要約
自律運転における3Dオブジェクト検出のデータ増強を調査します。
私たちは、運転シーンでの3Dオブジェクトの配置のためのガウスのスプラッティングに基づいて、3D再建の最近の進歩を利用しています。
BEVレイアウトに条件付けられた画像を合成する既存の拡散ベースの方法とは異なり、私たちのアプローチは、幾何学的変換を明示的に課した再構築された3D空間に直接3Dオブジェクトを配置します。
これにより、オブジェクト配置の物理的な妥当性と、非常に正確な3Dポーズと位置注釈の両方が保証されます。
私たちの実験は、限られた数の外部3Dオブジェクトを実際のシーンに統合することで、拡張データが3Dオブジェクト検出パフォーマンスを大幅に向上させ、オブジェクト検出のための既存の拡散ベースの3D増強を上回ることを示しています。
ヌスセンデータセットでの広範なテストは、オブジェクトの配置に高い幾何学的多様性を課すことが、オブジェクトの外観の多様性と比較して大きな影響を与えることを明らかにしています。
さらに、検出損失を最大化するか、カメラ画像に高い視覚閉塞を課すことにより、ハード例を生成しても、自律運転におけるカメラベースの3Dオブジェクト検出のためのより効率的な3Dデータ増強につながることはないことを示しています。
要約(オリジナル)
We investigate data augmentation for 3D object detection in autonomous driving. We utilize recent advancements in 3D reconstruction based on Gaussian Splatting for 3D object placement in driving scenes. Unlike existing diffusion-based methods that synthesize images conditioned on BEV layouts, our approach places 3D objects directly in the reconstructed 3D space with explicitly imposed geometric transformations. This ensures both the physical plausibility of object placement and highly accurate 3D pose and position annotations. Our experiments demonstrate that even by integrating a limited number of external 3D objects into real scenes, the augmented data significantly enhances 3D object detection performance and outperforms existing diffusion-based 3D augmentation for object detection. Extensive testing on the nuScenes dataset reveals that imposing high geometric diversity in object placement has a greater impact compared to the appearance diversity of objects. Additionally, we show that generating hard examples, either by maximizing detection loss or imposing high visual occlusion in camera images, does not lead to more efficient 3D data augmentation for camera-based 3D object detection in autonomous driving.
arxiv情報
著者 | Farhad G. Zanjani,Davide Abati,Auke Wiggers,Dimitris Kalatzis,Jens Petersen,Hong Cai,Amirhossein Habibian |
発行日 | 2025-04-23 14:10:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google