ZeroFlow: Scalable Scene Flow via Distillation

要約

シーン フロー推定は、時間的に連続する点群間の 3D モーション フィールドを記述するタスクです。
最先端の手法では、強力な事前分布とテスト時間の最適化手法が使用されていますが、フルサイズの点群の処理には数十秒の時間がかかるため、オープン アプリケーションなどのリアルタイム アプリケーションのコンピュータ ビジョン プリミティブとしては使用できません。
世界の物体検出。
フィードフォワード手法はかなり高速で、フルサイズの点群の場合は数十ミリ秒から数百ミリ秒程度で実行されますが、高価な人間による監視が必要です。
両方の制限に対処するために、ラベルフリーの最適化手法を使用してフィードフォワード モデルを監視する疑似ラベルを生成するシンプルでスケーラブルな蒸留フレームワークである、蒸留によるシーン フローを提案します。
このフレームワークのインスタンス化である ZeroFlow は、大規模で多様なラベルなしデータでトレーニングするだけで人間によるラベルを使用せずに、Argoverse 2 自己教師ありシーン フロー チャレンジで最先端のパフォーマンスを達成します。
テスト時には、ZeroFlow は、フルサイズの点群でのラベルフリーの最先端の最適化ベースの手法よりも 1000 倍以上高速であり (34 FPS 対 0.028 FPS)、ラベルなしのデータでのトレーニングは、ラベルなしのデータでのトレーニングに比べて 1000 倍以上安価です。
人間によるアノテーションのコスト (\394 対 ~\750,000)。
さらなる研究を促進するために、Argoverse 2 および Waymo Open データセットのコード、トレーニング済みモデルの重み、および高品質の疑似ラベルを https://vedder.io/zeroflow.html でリリースします。

要約(オリジナル)

Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds to process full-size point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feedforward methods are considerably faster, running on the order of tens to hundreds of milliseconds for full-size point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple, scalable distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feedforward model. Our instantiation of this framework, ZeroFlow, achieves state-of-the-art performance on the Argoverse 2 Self-Supervised Scene Flow Challenge while using zero human labels by simply training on large-scale, diverse unlabeled data. At test-time, ZeroFlow is over 1000x faster than label-free state-of-the-art optimization-based methods on full-size point clouds (34 FPS vs 0.028 FPS) and over 1000x cheaper to train on unlabeled data compared to the cost of human annotation (\$394 vs ~\$750,000). To facilitate further research, we release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets at https://vedder.io/zeroflow.html

arxiv情報

著者 Kyle Vedder,Neehar Peri,Nathaniel Chodosh,Ishan Khatri,Eric Eaton,Dinesh Jayaraman,Yang Liu,Deva Ramanan,James Hays
発行日 2024-03-14 16:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク