A Good Foundation is Worth Many Labels: Label-Efficient Panoptic Segmentation

要約

ロボット認識用の学習ベースのモデルを広く適用するための主な課題は、正確な予測を達成しながら、必要な注釈付きトレーニング データの量を大幅に削減することです。
これは、運用コストを削減するだけでなく、導入時間を短縮するためにも不可欠です。
この研究では、ビジュアル基盤モデルによって舗装された基礎を活用することで、PAnoptic SegmenTation with fEw Labels (PASTEL) のこの課題に対処します。
このようなモデルの記述的な画像特徴を活用して、非常に少数の注釈付きトレーニング サンプルを使用して、セマンティック セグメンテーションとオブジェクト境界検出用の 2 つの軽量ネットワーク ヘッドをトレーニングします。
次に、正規化されたカットに基づいてパノラマ マップを生成する新しい融合モジュールを介してそれらの予測をマージします。
パフォーマンスをさらに向上させるために、特徴駆動型の類似性スキームによって選択されたラベルのない画像に対する自己トレーニングを利用します。
自動運転や農業ロボットなどの重要なロボット認識ユースケースに PASTEL を採用することで、私たちのアプローチの関連性を強調します。
広範な実験により、PASTEL は、使用するアノテーションが少ない場合でも、ラベル効率の高いセグメンテーションに関して以前の方法よりも大幅に優れていることが実証されました。
私たちの作業のコードは http://pastel.cs.uni-freiburg.de で公開されています。

要約(オリジナル)

A key challenge for the widespread application of learning-based models for robotic perception is to significantly reduce the required amount of annotated training data while achieving accurate predictions. This is essential not only to decrease operating costs but also to speed up deployment time. In this work, we address this challenge for PAnoptic SegmenTation with fEw Labels (PASTEL) by exploiting the groundwork paved by visual foundation models. We leverage descriptive image features from such a model to train two lightweight network heads for semantic segmentation and object boundary detection, using very few annotated training samples. We then merge their predictions via a novel fusion module that yields panoptic maps based on normalized cut. To further enhance the performance, we utilize self-training on unlabeled images selected by a feature-driven similarity scheme. We underline the relevance of our approach by employing PASTEL to important robot perception use cases from autonomous driving and agricultural robotics. In extensive experiments, we demonstrate that PASTEL significantly outperforms previous methods for label-efficient segmentation even when using fewer annotations. The code of our work is publicly available at http://pastel.cs.uni-freiburg.de.

arxiv情報

著者 Niclas Vödisch,Kürsat Petek,Markus Käppeler,Abhinav Valada,Wolfram Burgard
発行日 2024-05-29 12:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク