要約
トランスフォーマーを利用した参照画像セグメンテーション (RIS) は、複雑な視覚言語タスクの解釈において大きな成功を収めています。
ただし、二次計算コストにより、長期にわたる視覚言語の依存関係を取得する際にリソースが大量に消費されます。
幸いなことに、Mamba は処理における効率的な線形複雑さによってこの問題に対処します。
ただし、Mamba をマルチモーダル インタラクションに直接適用すると、主にマルチモーダル データを効果的に融合するにはチャネル インタラクションが不十分であるため、課題が生じます。
この論文では、Mamba の機能とマルチモーダル Mamba Twister ブロックを統合する新しい RIS アーキテクチャである ReMamber を提案します。
Mamba Twister は、画像とテキストの相互作用を明示的にモデル化し、独自のチャネルと空間ツイスト メカニズムを通じてテキストと視覚の機能を融合します。
私たちは 3 つの挑戦的なベンチマークで最先端を達成しています。
さらに、ReMamber の徹底的な分析を行い、Mamba を使用した他の融合デザインについて議論します。
これらは将来の研究に貴重な視点を提供します。
要約(オリジナル)
Referring Image Segmentation (RIS) leveraging transformers has achieved great success on the interpretation of complex visual-language tasks. However, the quadratic computation cost makes it resource-consuming in capturing long-range visual-language dependencies. Fortunately, Mamba addresses this with efficient linear complexity in processing. However, directly applying Mamba to multi-modal interactions presents challenges, primarily due to inadequate channel interactions for the effective fusion of multi-modal data. In this paper, we propose ReMamber, a novel RIS architecture that integrates the power of Mamba with a multi-modal Mamba Twister block. The Mamba Twister explicitly models image-text interaction, and fuses textual and visual features through its unique channel and spatial twisting mechanism. We achieve the state-of-the-art on three challenging benchmarks. Moreover, we conduct thorough analyses of ReMamber and discuss other fusion designs using Mamba. These provide valuable perspectives for future research.
arxiv情報
著者 | Yuhuan Yang,Chaofan Ma,Jiangchao Yao,Zhun Zhong,Ya Zhang,Yanfeng Wang |
発行日 | 2024-03-26 16:27:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google