Referring Image Segmentation Using Text Supervision

要約

既存の参照画像セグメンテーション (RIS) 手法では、通常、監視のために高価なピクセル レベルまたはボックス レベルの注釈が必要です。
この論文では、RIS で使用される参照テキストが、ターゲット オブジェクトの位置を特定するのに十分な情報をすでに提供していることを観察します。
したがって、我々は、肯定的なテキスト表現と否定的なテキスト表現を区別するための分類プロセスとしてターゲット位置特定問題を定式化するための、新しい弱教師付き RIS フレームワークを提案します。
画像の参照テキスト表現は肯定的な表現として使用されますが、他の画像からの参照テキスト表現はこの画像の否定的な表現として使用できます。
私たちのフレームワークには 3 つの主な新規性があります。
まず、視覚的特徴と言語的特徴の間の領域の不一致を調和させることにより、分類プロセスを容易にする双方向プロンプト手法を提案します。
第二に、ノイズの多い背景情報を削減し、ターゲットオブジェクトの位置特定のための応答マップの正確性を向上させるためのキャリブレーション方法を提案します。
第三に、RIS 推論用のセグメンテーション ネットワークをトレーニングするために、強化された応答マップから高品質の疑似ラベルを生成するための肯定的な応答マップ選択戦略を提案します。
評価のために、位置特定精度を測定するための新しい指標を提案します。
4 つのベンチマークの実験では、私たちのフレームワークが既存の完全教師あり RIS 手法に対して有望なパフォーマンスを達成しながら、関連分野から適応された最先端の弱教師あり手法を上回るパフォーマンスを示していることが示されています。
コードは https://github.com/fawnliu/TRIS で入手できます。

要約(オリジナル)

Existing Referring Image Segmentation (RIS) methods typically require expensive pixel-level or box-level annotations for supervision. In this paper, we observe that the referring texts used in RIS already provide sufficient information to localize the target object. Hence, we propose a novel weakly-supervised RIS framework to formulate the target localization problem as a classification process to differentiate between positive and negative text expressions. While the referring text expressions for an image are used as positive expressions, the referring text expressions from other images can be used as negative expressions for this image. Our framework has three main novelties. First, we propose a bilateral prompt method to facilitate the classification process, by harmonizing the domain discrepancy between visual and linguistic features. Second, we propose a calibration method to reduce noisy background information and improve the correctness of the response maps for target object localization. Third, we propose a positive response map selection strategy to generate high-quality pseudo-labels from the enhanced response maps, for training a segmentation network for RIS inference. For evaluation, we propose a new metric to measure localization accuracy. Experiments on four benchmarks show that our framework achieves promising performances to existing fully-supervised RIS methods while outperforming state-of-the-art weakly-supervised methods adapted from related areas. Code is available at https://github.com/fawnliu/TRIS.

arxiv情報

著者 Fang Liu,Yuhao Liu,Yuqiu Kong,Ke Xu,Lihe Zhang,Baocai Yin,Gerhard Hancke,Rynson Lau
発行日 2023-08-28 13:40:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク