SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

要約

参照表現セグメンテーション (RES) は、テキストによって参照される画像内のターゲット オブジェクトのセグメンテーション マスク (つまり、参照表現) を提供することを目的としています。
既存の方法では、大規模なマスク アノテーションが必要です。
さらに、そのようなアプローチは、未確認/ゼロショットのシナリオにはうまく一般化できません。
前述の問題に対処するために、いくつかの新しいアルゴリズム革新を備えた RES の弱く監視されたブートストラップ アーキテクチャを提案します。
私たちの知る限り、私たちのアプローチは、マスク アノテーションとボックス アノテーション (図 1 および表 1 に示す) の両方の一部のみをトレーニングに考慮する最初のアプローチです。
このような低アノテーション設定でのモデルの原則に基づいたトレーニングを可能にし、画像とテキストの領域レベルの位置合わせを改善し、画像内のターゲット オブジェクトの空間的位置特定をさらに強化するために、注意一貫性モジュールを使用したクロスモーダル フュージョンを提案します。
ラベルのないサンプルの自動疑似ラベル付けのために、空間認識ゼロショット提案スコアリング アプローチに基づいた新しいマスク有効性フィルタリング ルーチンを導入します。
広範な実験により、わずか 30% のアノテーションで、RefCOCO+@testA および RefCOCO+testB データセットの完全教師あり SOTA メソッド SeqTR によってそれぞれ得られた 58.93 および 48.19 ミリオUと比較して、モデル SafaRi は 59.31 ミリオU および 48.26 ミリオU を達成することが示されました。
また、SafaRi は、完全監視設定において SeqTR を 11.7% (RefCOCO+testA 上) および 19.6% (RefCOCO+testB 上) 上回り、目に見えないタスクやゼロショット タスクにおいて強力な汎化機能を実証します。

要約(オリジナル)

Referring Expression Segmentation (RES) aims to provide a segmentation mask of the target object in an image referred to by the text (i.e., referring expression). Existing methods require large-scale mask annotations. Moreover, such approaches do not generalize well to unseen/zero-shot scenarios. To address the aforementioned issues, we propose a weakly-supervised bootstrapping architecture for RES with several new algorithmic innovations. To the best of our knowledge, ours is the first approach that considers only a fraction of both mask and box annotations (shown in Figure 1 and Table 1) for training. To enable principled training of models in such low-annotation settings, improve image-text region-level alignment, and further enhance spatial localization of the target object in the image, we propose Cross-modal Fusion with Attention Consistency module. For automatic pseudo-labeling of unlabeled samples, we introduce a novel Mask Validity Filtering routine based on a spatially aware zero-shot proposal scoring approach. Extensive experiments show that with just 30% annotations, our model SafaRi achieves 59.31 and 48.26 mIoUs as compared to 58.93 and 48.19 mIoUs obtained by the fully-supervised SOTA method SeqTR respectively on RefCOCO+@testA and RefCOCO+testB datasets. SafaRi also outperforms SeqTR by 11.7% (on RefCOCO+testA) and 19.6% (on RefCOCO+testB) in a fully-supervised setting and demonstrates strong generalization capabilities in unseen/zero-shot tasks.

arxiv情報

著者 Sayan Nag,Koustava Goswami,Srikrishna Karanam
発行日 2024-07-02 16:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク