T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning

要約

LiDAR 点群理解における注釈付きデータの不足は、効果的な表現学習の妨げとなります。
その結果、学者たちは効果的な自己教師付き事前トレーニングパラダイムを積極的に研究してきました。
それにもかかわらず、LiDAR 点群シーケンスに固有の時間情報は一貫して無視されます。
この特性をより有効に活用するために、時間的に隣接するフレームを入力として受け取り、時間的依存関係を学習する時間マスク自動エンコーダー (T-MAE) という効果的な事前トレーニング戦略を提案します。
SiamWCA バックボーンには、Siamese エンコーダとウィンドウ クロスアテンション (WCA) モジュールが含まれており、2 フレーム入力に対して確立されます。
自車両の移動により同じインスタンスのビューが変化することを考慮すると、時間モデリングは堅牢で自然なデータ拡張としても機能し、対象オブジェクトの理解を強化します。
SiamWCA は強力なアーキテクチャですが、注釈付きデータに大きく依存しています。
当社の T-MAE 事前トレーニング戦略により、注釈付きデータの需要が軽減されます。
包括的な実験により、T-MAE は、競合する自己教師ありアプローチの中で、Waymo と ONCE の両方のデータセットで最高のパフォーマンスを達成することが実証されました。

要約(オリジナル)

The scarcity of annotated data in LiDAR point cloud understanding hinders effective representation learning. Consequently, scholars have been actively investigating efficacious self-supervised pre-training paradigms. Nevertheless, temporal information, which is inherent in the LiDAR point cloud sequence, is consistently disregarded. To better utilize this property, we propose an effective pre-training strategy, namely Temporal Masked Auto-Encoders (T-MAE), which takes as input temporally adjacent frames and learns temporal dependency. A SiamWCA backbone, containing a Siamese encoder and a windowed cross-attention (WCA) module, is established for the two-frame input. Considering that the movement of an ego-vehicle alters the view of the same instance, temporal modeling also serves as a robust and natural data augmentation, enhancing the comprehension of target objects. SiamWCA is a powerful architecture but heavily relies on annotated data. Our T-MAE pre-training strategy alleviates its demand for annotated data. Comprehensive experiments demonstrate that T-MAE achieves the best performance on both Waymo and ONCE datasets among competitive self-supervised approaches.

arxiv情報

著者 Weijie Wei,Fatemeh Karimi Nejadasl,Theo Gevers,Martin R. Oswald
発行日 2024-03-21 16:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク