Mask Grounding for Referring Image Segmentation

要約

参照画像セグメンテーション (RIS) は、自由形式の言語表現によって参照されるオブジェクトをセグメント化するアルゴリズムを必要とする難しいタスクです。
近年の大幅な進歩にも関わらず、ほとんどの最先端 (SOTA) 手法は依然として、ピクセルおよびワード レベルでの言語と画像のモダリティの大きなギャップに悩まされています。
これらの方法は一般に、1) 言語とイメージの整合のための文レベルの言語機能に依存し、2) きめの細かい視覚的基礎付けのための明示的なトレーニング監督が不足しています。
その結果、それらは視覚的特徴と言語的特徴の間にオブジェクトレベルでの弱い対応関係を示します。
十分に根拠のある機能がなければ、従来の方法では、特にめったに使用されない句や曖昧な句を扱う場合、複数のオブジェクト間の関係について強力な推論を必要とする複雑な式を理解するのが困難でした。
この課題に取り組むために、マスクされたテキスト トークンとそれらに一致する視覚オブジェクトの間のきめ細かい対応を学習するようにモデルに明示的に教えることにより、言語機能内の視覚的なグラウンディングを大幅に改善する新しいマスク グラウンディング補助タスクを導入します。
マスク グラウンディングは、以前の RIS メソッドに直接使用でき、一貫して改善をもたらします。
さらに、モダリティギャップに総合的に対処するために、クロスモーダルアライメント損失とそれに付随するアライメントモジュールも設計します。
これらの追加機能はマスク グラウンディングと相乗的に機能します。
これらすべての技術により、当社の包括的なアプローチは、3 つの主要なベンチマーク (RefCOCO、RefCOCO+、および G-Ref) で従来技術を大幅に上回るアーキテクチャである MagNet (Mask-grounded Network) で頂点に達し、RIS アルゴリズムの現在の制限に対処する際の当社の方法の有効性を実証しています。

コードと事前トレーニングされた重みがリリースされます。

要約(オリジナル)

Referring Image Segmentation (RIS) is a challenging task that requires an algorithm to segment objects referred by free-form language expressions. Despite significant progress in recent years, most state-of-the-art (SOTA) methods still suffer from considerable language-image modality gap at the pixel and word level. These methods generally 1) rely on sentence-level language features for language-image alignment and 2) lack explicit training supervision for fine-grained visual grounding. Consequently, they exhibit weak object-level correspondence between visual and language features. Without well-grounded features, prior methods struggle to understand complex expressions that require strong reasoning over relationships among multiple objects, especially when dealing with rarely used or ambiguous clauses. To tackle this challenge, we introduce a novel Mask Grounding auxiliary task that significantly improves visual grounding within language features, by explicitly teaching the model to learn fine-grained correspondence between masked textual tokens and their matching visual objects. Mask Grounding can be directly used on prior RIS methods and consistently bring improvements. Furthermore, to holistically address the modality gap, we also design a cross-modal alignment loss and an accompanying alignment module. These additions work synergistically with Mask Grounding. With all these techniques, our comprehensive approach culminates in MagNet (Mask-grounded Network), an architecture that significantly outperforms prior arts on three key benchmarks (RefCOCO, RefCOCO+ and G-Ref), demonstrating our method’s effectiveness in addressing current limitations of RIS algorithms. Our code and pre-trained weights will be released.

arxiv情報

著者 Yong Xien Chng,Henry Zheng,Yizeng Han,Xuchong Qiu,Gao Huang
発行日 2024-03-25 11:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク