要約
参照イメージ セグメンテーション (RIS) では、言語と外観のセマンティクスを相互により深く理解する必要があります。
特に困難な状況下では、その必要性は深刻になります。
これを達成するために、既存の作品はさまざまなトランス表現メカニズムに頼って、メインの RGB ブランチに沿って言語意味論を直接フィードフォワードする傾向がありますが、その結果、指示対象の分布が空間内で弱くマイニングされ、非指示対象の意味論がチャネルに沿って汚染されてしまいます。
この論文では、高品質のクロスモダリティ融合を実現する空間セマンティックリカレントマイニング (S\textsuperscript{2}RM) を提案します。
これは、言語機能の分散、空間的意味論的反復比較、および解析済み意味論的バランシングという 3 部作の作業戦略に従っています。
融合中、S\textsuperscript{2}RM は最初に制約が弱いが分散を意識した言語特徴を生成し、次に 1 つのモダリティ コンテキストの回転された特徴から各行と列の特徴をバンドルして、他のモダリティの特徴に含まれる関連するセマンティクスを繰り返し関連付けます。
コンテキストを考慮し、最後に自己抽出した重みを使用して、解析されたさまざまなセマンティクスの寄与を重み付けします。
比較解析を介して、S\textsuperscript{2}RM は、ジェネレーター コンテキストの近くおよびリモートのスライス層から解析済みコンテキストの現在のスライス層に情報を転送し、双方向かつ構造化されたグローバルな関係をより適切にモデル化できます。
さらに、指示対象の前景を強調するためのクロススケール抽象意味誘導デコーダ (CASG) も提案し、最終的には比較的低コストでさまざまな粒度の特徴を統合します。
現在の困難な 4 つのデータセットに関する広範な実験結果は、私たちが提案した方法が他の最先端のアルゴリズムに対して有利に機能することを示しています。
要約(オリジナル)
Referring Image Segmentation (RIS) consistently requires language and appearance semantics to more understand each other. The need becomes acute especially under hard situations. To achieve, existing works tend to resort to various trans-representing mechanisms to directly feed forward language semantic along main RGB branch, which however will result in referent distribution weakly-mined in space and non-referent semantic contaminated along channel. In this paper, we propose Spatial Semantic Recurrent Mining (S\textsuperscript{2}RM) to achieve high-quality cross-modality fusion. It follows a working strategy of trilogy: distributing language feature, spatial semantic recurrent coparsing, and parsed-semantic balancing. During fusion, S\textsuperscript{2}RM will first generate a constraint-weak yet distribution-aware language feature, then bundle features of each row and column from rotated features of one modality context to recurrently correlate relevant semantic contained in feature from other modality context, and finally resort to self-distilled weights to weigh on the contributions of different parsed semantics. Via coparsing, S\textsuperscript{2}RM transports information from the near and remote slice layers of generator context to the current slice layer of parsed context, capable of better modeling global relationship bidirectional and structured. Besides, we also propose a Cross-scale Abstract Semantic Guided Decoder (CASG) to emphasize the foreground of the referent, finally integrating different grained features at a comparatively low cost. Extensive experimental results on four current challenging datasets show that our proposed method performs favorably against other state-of-the-art algorithms.
arxiv情報
著者 | Jiaxing Yang,Lihe Zhang,Jiayu Sun,Huchuan Lu |
発行日 | 2024-05-15 00:17:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google