Segment, Lift and Fit: Automatic 3D Shape Labeling from 2D Prompts

要約

この論文では、特に自動運転におけるアプリケーションに焦点を当てて、2D ポイントまたはボックス プロンプトから 3D オブジェクトに自動的にラベルを付けるアルゴリズムを提案します。
従来の技術とは異なり、自動ラベラーは境界ボックスの代わりに 3D 形状を予測し、特定のデータセットでのトレーニングを必要としません。
この目標を達成するために、セグメント、リフト、フィット (SLF) パラダイムを提案します。
まず、Segment Anything Model (SAM) を使用してプロンプトから高品質のインスタンス マスクをセグメント化し、残りの問題を指定された 2D マスクからの 3D 形状の予測に変換します。
この問題の不適切な性質により、複数の 3D 形状が同一のマスクに投影される可能性があるため、重大な課題が生じます。
この問題に取り組むために、2D マスクを 3D フォームに持ち上げ、勾配降下法を使用して、投影がマスクに適合し、表面が周囲の LiDAR ポイントに適合するまでポーズと形状を調整します。
特に、特定のデータセットでトレーニングを行っていないため、SLF 自動ラベラーは、他のメソッドのようにトレーニング セット内の偏ったアノテーション パターンにオーバーフィットしません。
したがって、異なるデータセットにわたる汎化能力が向上します。
KITTI データセットの実験結果は、SLF 自動ラベラーが高品質の境界ボックス アノテーションを生成し、ほぼ 90\% の AP@0.5 IoU を達成していることを示しています。
生成された擬似ラベルを使用してトレーニングされた検出器は、実際のグラウンド トゥルース アノテーションを使用してトレーニングされた検出器とほぼ同じパフォーマンスを発揮します。
さらに、SLF 自動ラベラーは、詳細な形状予測において有望な結果を示し、動的オブジェクトの占有アノテーションの潜在的な代替手段を提供します。

要約(オリジナル)

This paper proposes an algorithm for automatically labeling 3D objects from 2D point or box prompts, especially focusing on applications in autonomous driving. Unlike previous arts, our auto-labeler predicts 3D shapes instead of bounding boxes and does not require training on a specific dataset. We propose a Segment, Lift, and Fit (SLF) paradigm to achieve this goal. Firstly, we segment high-quality instance masks from the prompts using the Segment Anything Model (SAM) and transform the remaining problem into predicting 3D shapes from given 2D masks. Due to the ill-posed nature of this problem, it presents a significant challenge as multiple 3D shapes can project into an identical mask. To tackle this issue, we then lift 2D masks to 3D forms and employ gradient descent to adjust their poses and shapes until the projections fit the masks and the surfaces conform to surrounding LiDAR points. Notably, since we do not train on a specific dataset, the SLF auto-labeler does not overfit to biased annotation patterns in the training set as other methods do. Thus, the generalization ability across different datasets improves. Experimental results on the KITTI dataset demonstrate that the SLF auto-labeler produces high-quality bounding box annotations, achieving an AP@0.5 IoU of nearly 90\%. Detectors trained with the generated pseudo-labels perform nearly as well as those trained with actual ground-truth annotations. Furthermore, the SLF auto-labeler shows promising results in detailed shape predictions, providing a potential alternative for the occupancy annotation of dynamic objects.

arxiv情報

著者 Jianhao Li,Tianyu Sun,Zhongdao Wang,Enze Xie,Bailan Feng,Hongbo Zhang,Ze Yuan,Ke Xu,Jiaheng Liu,Ping Luo
発行日 2024-07-17 06:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク