要約
カメラのみの Bird’s-Eye-View (BEV) セグメンテーション ネットワーク用に、OcFeat と呼ばれる自己教師あり事前トレーニング手法を導入します。
OccFeat を使用して、占有予測と特徴抽出タスクを通じて BEV ネットワークを事前トレーニングします。
占有予測により、シーンの 3D 幾何学的理解をモデルに提供します。
ただし、学習されるジオメトリはクラスに依存しません。
したがって、自己教師ありの事前学習済み画像基礎モデルからの蒸留を通じて、3D 空間内のモデルに意味論的な情報を追加します。
私たちの方法で事前トレーニングされたモデルは、特にデータ量が少ないシナリオで、BEV セマンティック セグメンテーションのパフォーマンスが向上しています。
さらに、経験的な結果により、事前トレーニング アプローチにおいて特徴抽出と 3D 占有予測を統合することの有効性が確認されています。
要約(オリジナル)
We introduce a self-supervised pretraining method, called OcFeat, for camera-only Bird’s-Eye-View (BEV) segmentation networks. With OccFeat, we pretrain a BEV network via occupancy prediction and feature distillation tasks. Occupancy prediction provides a 3D geometric understanding of the scene to the model. However, the geometry learned is class-agnostic. Hence, we add semantic information to the model in the 3D space through distillation from a self-supervised pretrained image foundation model. Models pretrained with our method exhibit improved BEV semantic segmentation performance, particularly in low-data scenarios. Moreover, empirical results affirm the efficacy of integrating feature distillation with 3D occupancy prediction in our pretraining approach.
arxiv情報
著者 | Sophia Sirko-Galouchenko,Alexandre Boulch,Spyros Gidaris,Andrei Bursuc,Antonin Vobecky,Patrick Pérez,Renaud Marlet |
発行日 | 2024-05-15 09:16:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google