Comprehensive Multi-Modal Interactions for Referring Image Segmentation

要約

自然言語記述に対応するセグメンテーションマップを出力する参照画像セグメンテーション(RIS)を調査します。
RISに効率的に対処するには、視覚的および言語的モダリティで発生する相互作用と、各モダリティ内で発生する相互作用を考慮する必要があります。
既存の方法は、さまざまな形式の相互作用を\ emph {順次}(エラーの伝播につながる)または\ emph{無視}のモーダル内相互作用を計算するため、制限されています。
同期マルチモーダルフュージョンモジュール(SFM)を介して3つのインタラクションすべてを\ emph {同時に}実行することにより、この制限に対処します。
さらに、洗練されたセグメンテーションマスクを作成するために、言語機能が視覚階層全体でのコンテキスト情報の交換を容易にする、新しい階層型クロスモーダル集約モジュール(HCAM)を提案します。
徹底的なアブレーション研究を提示し、4つのベンチマークデータセットでアプローチのパフォーマンスを検証し、既存の最先端(SOTA)メソッドよりも大幅なパフォーマンスの向上を示します。

要約(オリジナル)

We investigate Referring Image Segmentation (RIS), which outputs a segmentation map corresponding to the natural language description. Addressing RIS efficiently requires considering the interactions happening \emph{across} visual and linguistic modalities and the interactions \emph{within} each modality. Existing methods are limited because they either compute different forms of interactions \emph{sequentially} (leading to error propagation) or \emph{ignore} intramodal interactions. We address this limitation by performing all three interactions \emph{simultaneously} through a Synchronous Multi-Modal Fusion Module (SFM). Moreover, to produce refined segmentation masks, we propose a novel Hierarchical Cross-Modal Aggregation Module (HCAM), where linguistic features facilitate the exchange of contextual information across the visual hierarchy. We present thorough ablation studies and validate our approach’s performance on four benchmark datasets, showing considerable performance gains over the existing state-of-the-art (SOTA) methods.

arxiv情報

著者 Kanishk Jain,Vineet Gandhi
発行日 2022-07-21 16:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク