Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks

要約

自動運転システムの有効性には、さまざまな運転シナリオ下で多様な物体を検出することが不可欠です。
ただし、収集された現実世界のデータには必要な多様性が欠けていることが多く、ロングテール分布を示しています。
合成データは仮想シーンを生成することでこの問題を克服するために利用されてきましたが、大きな領域ギャップや、現実的な環境を作成するために 3D アーティストに必要な多大な労力などのハードルに直面しています。
これらの課題を克服するために、実際のマルチビュー画像データを対象の 3D 合成オブジェクトで強化するように設計された、完全に自動化された包括的なモジュール式フレームワークである ARSim を紹介します。
提案された方法は、ドメイン適応戦略とランダム化戦略を統合し、実際のデータから重要なドメイン属性を推測し、他の属性に対してシミュレーションベースのランダム化を採用することにより、実際のデータとシミュレートされたデータの間の共変量シフトに対処します。
実際のデータを使用して簡略化された仮想シーンを構築し、その中に 3D 合成アセットを戦略的に配置します。
車両周囲を撮影した複数の画像から配光を推定して照明を実現します。
実際のデータのカメラ パラメーターは、各フレームで合成アセットをレンダリングするために使用されます。
結果として得られる拡張されたマルチビューの一貫したデータセットは、自動運転車用のマルチカメラ認識ネットワークをトレーニングするために使用されます。
さまざまな AV 認識タスクに関する実験結果は、拡張されたデータセットでトレーニングされたネットワークの優れたパフォーマンスを示しています。

要約(オリジナル)

Detecting a diverse range of objects under various driving scenarios is essential for the effectiveness of autonomous driving systems. However, the real-world data collected often lacks the necessary diversity presenting a long-tail distribution. Although synthetic data has been utilized to overcome this issue by generating virtual scenes, it faces hurdles such as a significant domain gap and the substantial efforts required from 3D artists to create realistic environments. To overcome these challenges, we present ARSim, a fully automated, comprehensive, modular framework designed to enhance real multi-view image data with 3D synthetic objects of interest. The proposed method integrates domain adaptation and randomization strategies to address covariate shift between real and simulated data by inferring essential domain attributes from real data and employing simulation-based randomization for other attributes. We construct a simplified virtual scene using real data and strategically place 3D synthetic assets within it. Illumination is achieved by estimating light distribution from multiple images capturing the surroundings of the vehicle. Camera parameters from real data are employed to render synthetic assets in each frame. The resulting augmented multi-view consistent dataset is used to train a multi-camera perception network for autonomous vehicles. Experimental results on various AV perception tasks demonstrate the superior performance of networks trained on the augmented dataset.

arxiv情報

著者 Aqeel Anwar,Tae Eun Choe,Zian Wang,Sanja Fidler,Minwoo Park
発行日 2024-03-22 17:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク