Argoverse 2: Next Generation Datasets for Self-Driving Perception and Forecasting

要約

Argoverse 2 (AV2) を紹介します。これは、自動運転ドメインにおける知覚と予測の研究のための 3 つのデータセットのコレクションです。
注釈付きのセンサー データセットには、マルチモーダル データの 1,000 シーケンスが含まれており、7 つのリング カメラからの高解像度画像と、LIDAR ポイント クラウドに加えて 2 つのステレオ カメラ、および 6-DOF マップに位置合わせされたポーズが含まれています。
シーケンスには 26 のオブジェクト カテゴリの 3D 直方体注釈が含まれており、そのすべてが 3D 知覚モデルのトレーニングと評価をサポートするために十分にサンプリングされています。
Lidar データセットには、ラベル付けされていない LIDAR ポイント クラウドとマップに位置合わせされたポーズの 20,000 シーケンスが含まれています。
このデータセットは、LIDAR センサー データのこれまでで最大のコレクションであり、自己教師あり学習と、点群予測という新たなタスクをサポートします。
最後に、モーション予測データセットには、自動運転車と各ローカル シーンの他のアクターとの間の興味深く、やりがいのある相互作用のためにマイニングされた 250,000 のシナリオが含まれています。
モデルは、各シナリオで「スコアリングされた俳優」の将来の動きを予測する任務を負っており、オブジェクトの位置、方向、速度、およびカテゴリをキャプチャするトラック履歴が提供されます。
3 つのデータセットすべてで、各シナリオには 3D 車線と横断歩道のジオメトリを備えた独自の HD マップが含まれています。これは、6 つの異なる都市でキャプチャされたデータをソースとしています。
これらのデータセットは、既存のデータセットがサポートしていない方法で、新規および既存の機械学習研究の問題をサポートすると考えています。
すべてのデータセットは、CC BY-NC-SA 4.0 ライセンスの下でリリースされています。

要約(オリジナル)

We introduce Argoverse 2 (AV2) – a collection of three datasets for perception and forecasting research in the self-driving domain. The annotated Sensor Dataset contains 1,000 sequences of multimodal data, encompassing high-resolution imagery from seven ring cameras, and two stereo cameras in addition to lidar point clouds, and 6-DOF map-aligned pose. Sequences contain 3D cuboid annotations for 26 object categories, all of which are sufficiently-sampled to support training and evaluation of 3D perception models. The Lidar Dataset contains 20,000 sequences of unlabeled lidar point clouds and map-aligned pose. This dataset is the largest ever collection of lidar sensor data and supports self-supervised learning and the emerging task of point cloud forecasting. Finally, the Motion Forecasting Dataset contains 250,000 scenarios mined for interesting and challenging interactions between the autonomous vehicle and other actors in each local scene. Models are tasked with the prediction of future motion for ‘scored actors’ in each scenario and are provided with track histories that capture object location, heading, velocity, and category. In all three datasets, each scenario contains its own HD Map with 3D lane and crosswalk geometry – sourced from data captured in six distinct cities. We believe these datasets will support new and existing machine learning research problems in ways that existing datasets do not. All datasets are released under the CC BY-NC-SA 4.0 license.

arxiv情報

著者 Benjamin Wilson,William Qi,Tanmay Agarwal,John Lambert,Jagjeet Singh,Siddhesh Khandelwal,Bowen Pan,Ratnesh Kumar,Andrew Hartnett,Jhony Kaesemodel Pontes,Deva Ramanan,Peter Carr,James Hays
発行日 2023-01-02 00:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク