Towards Robust Robot 3D Perception in Urban Environments: The UT Campus Object Dataset

要約

テキサス大学オースティン キャンパスで収集されたモバイル ロボットの自己中心的知覚データセットである UT Campus Object Dataset (CODa) を紹介します。
私たちのデータセットには、8.5 時間のマルチモーダル センサー データが含まれています。同期された 3D 点群と、128 チャンネル 3D LiDAR および 10 fps の 2 台の 1.25MP RGB カメラからのステレオ RGB ビデオです。
追加の 0.5MP センサーによる 7 fps、および 9-DOF IMU センサーによる 40 Hz の RGB-D ビデオ。
58 分間のグラウンド トゥルース アノテーションには、53 のセマンティック クラスのインスタンス ID を持つ 130 万の 3D バウンディング ボックス、都市地形用の 5,000 フレームの 3D セマンティック アノテーション、および擬似グラウンド トゥルース ローカリゼーションが含まれています。
私たちは、屋内と屋外のさまざまなエリア、気象条件、時刻など、同じ地理的場所を繰り返し移動します。
CODa を使用すると、1) 最先端のドメイン適応アプローチを採用している場合でも、CODa を使用してトレーニングした場合、既存のデータセットと比較して都市環境における 3D オブジェクト検出パフォーマンスが大幅に向上すること、2) センサー固有の微調整が可能であることを経験的に実証しています。
3D オブジェクト検出精度が向上し、3) CODa での事前トレーニングにより、AV データセットでの事前トレーニングと比較して、都市環境におけるデータセット間の 3D オブジェクト検出パフォーマンスが向上します。
データセットとアノテーションを使用して、確立されたメトリクスを使用した 3D オブジェクト検出と 3D セマンティック セグメンテーションのベンチマークをリリースします。
将来的には、CODa ベンチマークには、教師なしオブジェクトの検出や再識別などの追加タスクが含まれる予定です。
CODa は、Texas Data Repository、事前トレーニング済みモデル、データセット開発パッケージ、および対話型データセット ビューアの Web サイト (https://amrl.cs.utexas.edu/coda) で一般公開されています。
私たちは、CODa が自己中心的な 3D 認識と都市環境における自律ナビゲーションの計画の研究にとって貴重なデータセットになることを期待しています。

要約(オリジナル)

We introduce the UT Campus Object Dataset (CODa), a mobile robot egocentric perception dataset collected on the University of Texas Austin Campus. Our dataset contains 8.5 hours of multimodal sensor data: synchronized 3D point clouds and stereo RGB video from a 128-channel 3D LiDAR and two 1.25MP RGB cameras at 10 fps; RGB-D videos from an additional 0.5MP sensor at 7 fps, and a 9-DOF IMU sensor at 40 Hz. We provide 58 minutes of ground-truth annotations containing 1.3 million 3D bounding boxes with instance IDs for 53 semantic classes, 5000 frames of 3D semantic annotations for urban terrain, and pseudo-ground truth localization. We repeatedly traverse identical geographic locations for a wide range of indoor and outdoor areas, weather conditions, and times of the day. Using CODa, we empirically demonstrate that: 1) 3D object detection performance in urban settings is significantly higher when trained using CODa compared to existing datasets even when employing state-of-the-art domain adaptation approaches, 2) sensor-specific fine-tuning improves 3D object detection accuracy and 3) pretraining on CODa improves cross-dataset 3D object detection performance in urban settings compared to pretraining on AV datasets. Using our dataset and annotations, we release benchmarks for 3D object detection and 3D semantic segmentation using established metrics. In the future, the CODa benchmark will include additional tasks like unsupervised object discovery and re-identification. We publicly release CODa on the Texas Data Repository, pre-trained models, dataset development package, and interactive dataset viewer on our website at https://amrl.cs.utexas.edu/coda. We expect CODa to be a valuable dataset for research in egocentric 3D perception and planning for autonomous navigation in urban environments.

arxiv情報

著者 Arthur Zhang,Chaitanya Eranki,Christina Zhang,Ji-Hwan Park,Raymond Hong,Pranav Kalyani,Lochana Kalyanaraman,Arsh Gamare,Arnav Bagad,Maria Esteva,Joydeep Biswas
発行日 2023-10-01 04:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク