Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation

要約

自然言語式で指定されたオブジェクトのマスクを生成することを目的とした参照画像セグメンテーションの問題に対処します。
最近の作品の多くは、Transformer を利用して、注目する視覚領域を集約することでターゲット オブジェクトの特徴を抽出します。
ただし、Transformer の一般的なアテンション メカニズムは、アテンションの重みの計算に言語入力のみを使用し、その出力で言語機能を明示的に融合しません。
したがって、その出力特徴は視覚情報によって支配され、これによりモデルがマルチモーダル情報を包括的に理解することが制限され、後続のマスク デコーダが出力マスクを抽出する際に不確実性がもたらされます。
この問題に対処するために、2 つの入力モダリティからの情報をより適切に融合するマルチモーダル相互注意 ($\mathrm{M^3Att}$) とマルチモーダル相互デコーダー ($\mathrm{M^3Dec}$) を提案します。
{$\mathrm{M^3Dec}$} に基づいて、言語機能と視覚機能の間の継続的かつ詳細な対話を可能にする反復マルチモーダル インタラクション ($\mathrm{IMI}$) をさらに提案します。
さらに、抽出された特徴において言語情報が失われたり歪んだりするのを防ぐために、言語特徴再構成 ($\mathrm{LFR}$) を導入します。
広範な実験の結果、私たちが提案したアプローチはベースラインを大幅に改善し、RefCOCO シリーズ データセットに対する最先端の参照画像セグメンテーション手法を一貫して上回っていることが示されています。

要約(オリジナル)

We address the problem of referring image segmentation that aims to generate a mask for the object specified by a natural language expression. Many recent works utilize Transformer to extract features for the target object by aggregating the attended visual regions. However, the generic attention mechanism in Transformer only uses the language input for attention weight calculation, which does not explicitly fuse language features in its output. Thus, its output feature is dominated by vision information, which limits the model to comprehensively understand the multi-modal information, and brings uncertainty for the subsequent mask decoder to extract the output mask. To address this issue, we propose Multi-Modal Mutual Attention ($\mathrm{M^3Att}$) and Multi-Modal Mutual Decoder ($\mathrm{M^3Dec}$) that better fuse information from the two input modalities. Based on {$\mathrm{M^3Dec}$}, we further propose Iterative Multi-modal Interaction ($\mathrm{IMI}$) to allow continuous and in-depth interactions between language and vision features. Furthermore, we introduce Language Feature Reconstruction ($\mathrm{LFR}$) to prevent the language information from being lost or distorted in the extracted feature. Extensive experiments show that our proposed approach significantly improves the baseline and outperforms state-of-the-art referring image segmentation methods on RefCOCO series datasets consistently.

arxiv情報

著者 Chang Liu,Henghui Ding,Yulun Zhang,Xudong Jiang
発行日 2023-05-24 16:26:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク