要約
現実世界で強力なパフォーマンスを達成するには、ニューラル ネットワークを大規模で多様なデータセットでトレーニングする必要があります。
ただし、このようなデータセットを取得して注釈を付けるには、特に 3D 点群の場合、コストと時間がかかります。
このペーパーでは、人間によるアノテーションを最小限に抑えながら、完全にラベル付けされた多様で現実的な LIDAR データセットをゼロから生成するための、シンプルでコスト効率の高いアプローチである Paved2Paradise について説明します。
私たちの重要な洞察は、別々の「背景」データセットと「オブジェクト」データセットを意図的に収集する(つまり、「現実世界を因数分解する」)ことによって、それらをインテリジェントに組み合わせて、組み合わせ的に大規模で多様なトレーニングセットを生成できるということです。
したがって、Paved2Paradise パイプラインは 4 つのステップで構成されます: (1) 大量のバックグラウンド データを収集する、(2) 隔離された環境 (駐車場など) でさまざまな動作を実行する目的のオブジェクト クラスの個人を記録する、(3) ラベルをブートストラップする
オブジェクト データセット、(4) 背景の任意の位置にオブジェクトを配置してサンプルを生成します。
Paved2Paradise の有用性を実証するために、(1) 果樹園での人間の検出 (公開データが存在しないタスク) と (2) 都市環境での歩行者の検出という 2 つのタスク用の合成データセットを生成しました。
定性的には、Paved2Paradise 合成データのみでトレーニングされたモデルは、木の枝で人が大きく遮られている場合など、果樹園で人間を検出するのに非常に効果的であることがわかりました。
定量的には、KITTI から背景をソースとする Paved2Paradise データでトレーニングされたモデルは、実際のデータセットでトレーニングされたモデルと同等のパフォーマンスを発揮します。
これらの結果は、Paved2Paradise 合成データ パイプラインが、これまで LIDAR データセットの取得にコストが非常に高かった分野での点群モデル開発の加速に役立つ可能性があることを示唆しています。
要約(オリジナル)
To achieve strong real world performance, neural networks must be trained on large, diverse datasets; however, obtaining and annotating such datasets is costly and time-consuming, particularly for 3D point clouds. In this paper, we describe Paved2Paradise, a simple, cost-effective approach for generating fully labeled, diverse, and realistic lidar datasets from scratch, all while requiring minimal human annotation. Our key insight is that, by deliberately collecting separate ‘background’ and ‘object’ datasets (i.e., ‘factoring the real world’), we can intelligently combine them to produce a combinatorially large and diverse training set. The Paved2Paradise pipeline thus consists of four steps: (1) collecting copious background data, (2) recording individuals from the desired object class(es) performing different behaviors in an isolated environment (like a parking lot), (3) bootstrapping labels for the object dataset, and (4) generating samples by placing objects at arbitrary locations in backgrounds. To demonstrate the utility of Paved2Paradise, we generated synthetic datasets for two tasks: (1) human detection in orchards (a task for which no public data exists) and (2) pedestrian detection in urban environments. Qualitatively, we find that a model trained exclusively on Paved2Paradise synthetic data is highly effective at detecting humans in orchards, including when individuals are heavily occluded by tree branches. Quantitatively, a model trained on Paved2Paradise data that sources backgrounds from KITTI performs comparably to a model trained on the actual dataset. These results suggest the Paved2Paradise synthetic data pipeline can help accelerate point cloud model development in sectors where acquiring lidar datasets has previously been cost-prohibitive.
arxiv情報
著者 | Michael A. Alcorn,Noah Schwartz |
発行日 | 2024-04-22 20:38:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google