Waymo Open Dataset: Panoramic Video Panoptic Segmentation

要約

パノプティック画像セグメンテーションは、画像内のピクセルのグループを検索し、それらにセマンティッククラスとオブジェクトインスタンス識別子を割り当てるコンピュータビジョンタスクです。
画像セグメンテーションの研究は、ロボット工学や自動運転での重要なアプリケーションのためにますます人気が高まっています。
そのため、研究コミュニティは、公開されているベンチマークデータセットを利用して、最先端のコンピュータビジョンを推進しています。
ただし、画像に高密度のラベルを付けるにはコストがかかるため、パノラマセグメンテーションに適した公的に入手可能なグラウンドトゥルースラベルが不足しています。
また、ラベリングコストが高いため、既存のデータセットをビデオドメインやマルチカメラセットアップに拡張することも困難です。
そのため、Waymo Open Dataset:Panoramic Video Panoptic Segmentation Datasetを紹介します。これは、自動運転用の高品質のパノプティコンセグメンテーションラベルを提供する大規模なデータセットです。
公開されているWaymoOpenDatasetを使用して、さまざまなカメラ画像のセットを活用してデータセットを生成します。
私たちのラベルは、ビデオ処理のために時間の経過とともに一貫しており、完全なパノラマシーンの理解のために車両に取り付けられた複数のカメラ間で一貫しています。
具体的には、3つの異なる地理的位置を走行する自動運転車に搭載された5台のカメラによってキャプチャされた28のセマンティックカテゴリと2,860の時間シーケンスのラベルを提供し、合計10万のラベル付きカメラ画像になります。
私たちの知る限りでは、これにより、ビデオパノラマセグメンテーションラベルを提供する既存のデータセットよりもデータセットが1桁大きくなります。
さらに、パノラマビデオパノプティコンセグメンテーションの新しいベンチマークを提案し、DeepLabファミリーのモデルに基づいて多数の強力なベースラインを確立します。
ベンチマークとコードを公開します。
https://waymo.com/openでデータセットを見つけます。

要約(オリジナル)

Panoptic image segmentation is the computer vision task of finding groups of pixels in an image and assigning semantic classes and object instance identifiers to them. Research in image segmentation has become increasingly popular due to its critical applications in robotics and autonomous driving. The research community thereby relies on publicly available benchmark dataset to advance the state-of-the-art in computer vision. Due to the high costs of densely labeling the images, however, there is a shortage of publicly available ground truth labels that are suitable for panoptic segmentation. The high labeling costs also make it challenging to extend existing datasets to the video domain and to multi-camera setups. We therefore present the Waymo Open Dataset: Panoramic Video Panoptic Segmentation Dataset, a large-scale dataset that offers high-quality panoptic segmentation labels for autonomous driving. We generate our dataset using the publicly available Waymo Open Dataset, leveraging the diverse set of camera images. Our labels are consistent over time for video processing and consistent across multiple cameras mounted on the vehicles for full panoramic scene understanding. Specifically, we offer labels for 28 semantic categories and 2,860 temporal sequences that were captured by five cameras mounted on autonomous vehicles driving in three different geographical locations, leading to a total of 100k labeled camera images. To the best of our knowledge, this makes our dataset an order of magnitude larger than existing datasets that offer video panoptic segmentation labels. We further propose a new benchmark for Panoramic Video Panoptic Segmentation and establish a number of strong baselines based on the DeepLab family of models. We will make the benchmark and the code publicly available. Find the dataset at https://waymo.com/open.

arxiv情報

著者 Jieru Mei,Alex Zihao Zhu,Xinchen Yan,Hang Yan,Siyuan Qiao,Yukun Zhu,Liang-Chieh Chen,Henrik Kretzschmar,Dragomir Anguelov
発行日 2022-06-15 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク