要約
安定した拡散は、与えられたテキスト説明に対する強力な画像合成能力を実証しており、オブジェクトをグループ化するための強力な意味論的手がかりが含まれていることを示唆しています。
これに触発されて、研究者はトレーニング不要のセグメンテーションに安定拡散を採用することを検討しました。
既存のアプローチのほとんどは、セグメンテーション マスクを生成するために、単純にクロス アテンション マップを採用するか、セルフ アテンション マップによって改良します。
私たちは、セルフ アテンション マップを使用して繰り返し改良することで、より良い結果が得られると信じています。
しかし、我々は、セルフ・アテンション・マップに無関係なグローバル情報が含まれているため、このような改良は次善である可能性が高く、複数回の反復によるクロス・アテンション・マップの正確な改良を妨げていることを経験的に示しています。
これに対処するために、我々は、勾配降下法を利用してセルフ・アテンション・マップのエントロピーを低減し、それによって対応する弱い応答を抑制するエントロピー低減セルフ・アテンション・モジュールを備えた、iSeg という名前の、トレーニング不要のセグメンテーションのための反復改良フレームワークを提案します。
無関係なグローバル情報に。
当社の iSeg は、エントロピー低減セルフ アテンション モジュールを活用して、反復改良により洗練されたクロスアテンション マップを安定して改善します。
さらに、正確なクロスアテンション マップを生成するカテゴリ強化クロスアテンション モジュールを設計し、反復改良のためのより良い初期入力を提供します。
さまざまなデータセットと多様なセグメンテーション タスクにわたる広範な実験により、提案された貢献のメリットが明らかになり、多様なセグメンテーション タスクで有望なパフォーマンスが得られます。
都市景観上の教師なしセマンティック セグメンテーションの場合、当社の iSeg は、文献にある既存のトレーニング不要の最良のアプローチと比較して、mIoU に関して 3.8% の絶対的な増加を達成します。
さらに、私たちが提案する iSeg は、さまざまな種類の画像とインタラクションによるセグメンテーションをサポートできます。
要約(オリジナル)
Stable diffusion has demonstrated strong image synthesis ability to given text descriptions, suggesting it to contain strong semantic clue for grouping objects. Inspired by this, researchers have explored employing stable diffusion for trainingfree segmentation. Most existing approaches either simply employ cross-attention map or refine it by self-attention map, to generate segmentation masks. We believe that iterative refinement with self-attention map would lead to better results. However, we mpirically demonstrate that such a refinement is sub-optimal likely due to the self-attention map containing irrelevant global information which hampers accurately refining cross-attention map with multiple iterations. To address this, we propose an iterative refinement framework for training-free segmentation, named iSeg, having an entropy-reduced self-attention module which utilizes a gradient descent scheme to reduce the entropy of self-attention map, thereby suppressing the weak responses corresponding to irrelevant global information. Leveraging the entropy-reduced self-attention module, our iSeg stably improves refined crossattention map with iterative refinement. Further, we design a category-enhanced cross-attention module to generate accurate cross-attention map, providing a better initial input for iterative refinement. Extensive experiments across different datasets and diverse segmentation tasks reveal the merits of proposed contributions, leading to promising performance on diverse segmentation tasks. For unsupervised semantic segmentation on Cityscapes, our iSeg achieves an absolute gain of 3.8% in terms of mIoU compared to the best existing training-free approach in literature. Moreover, our proposed iSeg can support segmentation with different kind of images and interactions.
arxiv情報
| 著者 | Lin Sun,Jiale Cao,Jin Xie,Fahad Shahbaz Khan,Yanwei Pang |
| 発行日 | 2024-09-06 14:15:29+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google