Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation

要約

この論文はテキスト教師付きセマンティック セグメンテーションに取り組み、密な注釈なしで画像とテキストのペアのみを使用して画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的としています。
既存の方法は、画像とテキストのペアに対する対比学習により、視覚セグメントとテキストの意味が効果的に一致することが実証されています。
テキストの配置とセマンティック セグメンテーションの間には矛盾があることに気づきました。テキストは多くの場合、複数の意味概念で構成されますが、セマンティック セグメンテーションは意味的に均一なセグメントを作成しようとします。
この問題に対処するために、我々は画像とテキストのペアを組み合わせて画像領域のセットと単語セグメントのセットにそれぞれ分解し、対照学習を開発する新しいフレームワークである画像テキスト共分解(CoDe)を提案します。
領域と単語の位置合わせを強制します。
視覚言語モデルを使用するために、関心のある画像セグメントまたは単語セグメントを強調表示するための追加表現を導き出す即時学習メカニズムを提示します。これにより、そのセグメントからより効果的な特徴を抽出できます。
包括的な実験結果は、私たちの方法が 6 つのベンチマーク データセット上で既存のテキスト教師ありセマンティック セグメンテーション方法に対して有利に機能することを示しています。

要約(オリジナル)

This paper addresses text-supervised semantic segmentation, aiming to learn a model capable of segmenting arbitrary visual concepts within images by using only image-text pairs without dense annotations. Existing methods have demonstrated that contrastive learning on image-text pairs effectively aligns visual segments with the meanings of texts. We notice that there is a discrepancy between text alignment and semantic segmentation: A text often consists of multiple semantic concepts, whereas semantic segmentation strives to create semantically homogeneous segments. To address this issue, we propose a novel framework, Image-Text Co-Decomposition (CoDe), where the paired image and text are jointly decomposed into a set of image regions and a set of word segments, respectively, and contrastive learning is developed to enforce region-word alignment. To work with a vision-language model, we present a prompt learning mechanism that derives an extra representation to highlight an image segment or a word segment of interest, with which more effective features can be extracted from that segment. Comprehensive experimental results demonstrate that our method performs favorably against existing text-supervised semantic segmentation methods on six benchmark datasets.

arxiv情報

著者 Ji-Jia Wu,Andy Chia-Hao Chang,Chieh-Yu Chuang,Chun-Pei Chen,Yu-Lun Liu,Min-Hung Chen,Hou-Ning Hu,Yung-Yu Chuang,Yen-Yu Lin
発行日 2024-04-05 17:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク