要約
画像の高品質なセグメンテーション マスクを作成することは、コンピューター ビジョンの基本的な問題です。
最近の研究では、事実上あらゆる画像スタイルでゼロショット セグメンテーションを可能にする大規模な教師ありトレーニングと、密な注釈なしでセグメンテーションを可能にする教師なしトレーニングが検討されています。
ただし、注釈を付けずにゼロショットで何かをセグメント化できるモデルを構築することは依然として困難です。
この論文では、事前トレーニングされた安定拡散モデルがその注目層内のオブジェクトの固有の概念を学習しているため、この目標を達成するために安定拡散モデルで自己注目層を利用することを提案します。
具体的には、アテンション マップ間の KL 発散の測定に基づいて、アテンション マップを有効なセグメンテーション マスクにマージする、シンプルかつ効果的な反復マージ プロセスを導入します。
提案された方法では、画像の高品質なセグメンテーションを抽出するためにトレーニングや言語依存は必要ありません。
COCO-Stuff-27 では、私たちの手法は、以前の教師なしゼロショット SOTA 手法をピクセル精度で絶対 26%、平均 IoU で 17% 上回りました。
プロジェクト ページは \url{https://sites.google.com/view/diffseg/home} にあります。
要約(オリジナル)
Producing quality segmentation masks for images is a fundamental problem in computer vision. Recent research has explored large-scale supervised training to enable zero-shot segmentation on virtually any image style and unsupervised training to enable segmentation without dense annotations. However, constructing a model capable of segmenting anything in a zero-shot manner without any annotations is still challenging. In this paper, we propose to utilize the self-attention layers in stable diffusion models to achieve this goal because the pre-trained stable diffusion model has learned inherent concepts of objects within its attention layers. Specifically, we introduce a simple yet effective iterative merging process based on measuring KL divergence among attention maps to merge them into valid segmentation masks. The proposed method does not require any training or language dependency to extract quality segmentation for any images. On COCO-Stuff-27, our method surpasses the prior unsupervised zero-shot SOTA method by an absolute 26% in pixel accuracy and 17% in mean IoU. The project page is at \url{https://sites.google.com/view/diffseg/home}.
arxiv情報
著者 | Junjiao Tian,Lavisha Aggarwal,Andrea Colaco,Zsolt Kira,Mar Gonzalez-Franco |
発行日 | 2024-04-02 17:40:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google