Leveraging GAN Priors for Few-Shot Part Segmentation

要約

少数ショットのパーツセグメンテーションは、注釈付きのサンプルがいくつかある場合に、オブジェクトのさまざまなパーツを分離することを目的としています。
限られたデータの課題のため、既存の作業は主に事前にトレーニングされた機能よりも分類器の学習に焦点を合わせており、パーツセグメンテーションのタスク固有の機能を学習できません。
このホワイトペーパーでは、「事前トレーニング」-「微調整」パラダイムでタスク固有の機能を学習することを提案します。
事前トレーニングタスク(つまり、画像生成)とダウンストリームタスク(つまり、パーツのセグメンテーション)の間のギャップを減らすために迅速な設計を行い、生成のGAN事前確率をセグメンテーションに活用できるようにします。
これは、パーツセグメンテーションマップをRGB空間に投影し、RGBセグメンテーションマップと元の画像の間で補間を実行することによって実現されます。
具体的には、画像ジェネレーターをセグメンテーションジェネレーターに段階的に調整する微調整戦略を設計します。この場合、ジェネレーターの監視は、補間によって画像からセグメンテーションマップまで変化します。
さらに、2つのストリームアーキテクチャ、つまり、タスク固有の機能を生成するためのセグメンテーションストリームと、空間的な制約を提供するための画像ストリームを提案します。
画像ストリームは、自己監視型オートエンコーダと見なすことができます。これにより、モデルは大規模なサポート画像の恩恵を受けることができます。
全体として、この作業は、迅速な設計によって、生成タスクと知覚タスクの間の内部関連性を調査する試みです。
広範な実験は、私たちのモデルがいくつかのパーツセグメンテーションデータセットで最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Few-shot part segmentation aims to separate different parts of an object given only a few annotated samples. Due to the challenge of limited data, existing works mainly focus on learning classifiers over pre-trained features, failing to learn task-specific features for part segmentation. In this paper, we propose to learn task-specific features in a ‘pre-training’-‘fine-tuning’ paradigm. We conduct prompt designing to reduce the gap between the pre-train task (i.e., image generation) and the downstream task (i.e., part segmentation), so that the GAN priors for generation can be leveraged for segmentation. This is achieved by projecting part segmentation maps into the RGB space and conducting interpolation between RGB segmentation maps and original images. Specifically, we design a fine-tuning strategy to progressively tune an image generator into a segmentation generator, where the supervision of the generator varying from images to segmentation maps by interpolation. Moreover, we propose a two-stream architecture, i.e., a segmentation stream to generate task-specific features, and an image stream to provide spatial constraints. The image stream can be regarded as a self-supervised auto-encoder, and this enables our model to benefit from large-scale support images. Overall, this work is an attempt to explore the internal relevance between generation tasks and perception tasks by prompt designing. Extensive experiments show that our model can achieve state-of-the-art performance on several part segmentation datasets.

arxiv情報

著者 Mengya Han,Heliang Zheng,Chaoyue Wang,Yong Luo,Han Hu,Bo Du
発行日 2022-07-27 10:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク