要約
剛体セグメンテーションと動き推定に対する真に一般化可能なアプローチは、関節のあるオブジェクトや動くシーンを 3D で理解するための基礎となります。
セグメンテーションと動き推定の間の密接に絡み合った関係を考慮して、教師なしの方法でこのタスクに取り組むための SE(3) 等変アーキテクチャとトレーニング戦略を提示します。
私たちのアーキテクチャは、相互接続された 2 つの軽量ヘッドで構成されています。
これらのヘッドは、カテゴリ情報を必要とせずに、ポイントレベルの不変特徴を使用してセグメンテーション マスクを予測し、SE(3) 等変特徴から動きを推定します。
私たちのトレーニング戦略は統合されており、オンラインで実装できます。これにより、シーン フロー、セグメンテーション マスク、および剛体変換の間の相互関係を活用して、予測されるセグメンテーションとモーションが共同で最適化されます。
私たちの方法の優位性を実証するために、4 つのデータセットに対して実験を行います。
結果は、わずか 0.25M のパラメータと 0.92G FLOP で、私たちの方法がモデルのパフォーマンスと計算効率の両方で優れていることを示しています。
私たちの知る限り、これは動的点群におけるカテゴリに依存しない部品レベルの SE(3) 等分散を目的として設計された最初の研究です。
要約(オリジナル)
A truly generalizable approach to rigid segmentation and motion estimation is fundamental to 3D understanding of articulated objects and moving scenes. In view of the closely intertwined relationship between segmentation and motion estimates, we present an SE(3) equivariant architecture and a training strategy to tackle this task in an unsupervised manner. Our architecture is composed of two interconnected, lightweight heads. These heads predict segmentation masks using point-level invariant features and estimate motion from SE(3) equivariant features, all without the need for category information. Our training strategy is unified and can be implemented online, which jointly optimizes the predicted segmentation and motion by leveraging the interrelationships among scene flow, segmentation mask, and rigid transformations. We conduct experiments on four datasets to demonstrate the superiority of our method. The results show that our method excels in both model performance and computational efficiency, with only 0.25M parameters and 0.92G FLOPs. To the best of our knowledge, this is the first work designed for category-agnostic part-level SE(3) equivariance in dynamic point clouds.
arxiv情報
著者 | Jia-Xing Zhong,Ta-Ying Cheng,Yuhang He,Kai Lu,Kaichen Zhou,Andrew Markham,Niki Trigoni |
発行日 | 2023-10-31 13:46:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google