FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues

要約

マルチモーダル推論は、テキスト情報と視覚情報の間のギャップを埋める上で重要な役割を果たし、コンテキストをより深く理解できるようにします。
このペーパーでは、特徴スワッピングを通じてマルチモーダル推論を強化するように設計された、特徴スワッピング マルチモーダル推論 (FSMR) モデルについて説明します。
FSMR は、事前トレーニングされた視覚言語モデルをエンコーダーとして活用し、テキストと画像の両方の入力に対応して、両方のモダリティからの効果的な特徴表現を実現します。
独自の特徴交換モジュールを導入し、画像内の識別されたオブジェクトとテキスト内の対応する語彙間の特徴の交換を可能にし、それによって画像とテキストの間の相互作用に対するモデルの理解を強化します。
マルチモーダル位置合わせ機能をさらに強化するために、FSMR にはマルチモーダル クロスアテンション メカニズムが組み込まれており、テキスト情報と視覚情報の共同モデリングが容易になります。
トレーニング中に、画像とテキストのマッチングとクロスエントロピー損失を採用して、視覚要素と言語要素の間の意味の一貫性を確保します。
PMR データセットに関する広範な実験により、さまざまなパフォーマンス指標にわたって、最先端のベースライン モデルに対する FSMR の優位性が実証されました。

要約(オリジナル)

Multi-modal reasoning plays a vital role in bridging the gap between textual and visual information, enabling a deeper understanding of the context. This paper presents the Feature Swapping Multi-modal Reasoning (FSMR) model, designed to enhance multi-modal reasoning through feature swapping. FSMR leverages a pre-trained visual-language model as an encoder, accommodating both text and image inputs for effective feature representation from both modalities. It introduces a unique feature swapping module, enabling the exchange of features between identified objects in images and corresponding vocabulary words in text, thereby enhancing the model’s comprehension of the interplay between images and text. To further bolster its multi-modal alignment capabilities, FSMR incorporates a multi-modal cross-attention mechanism, facilitating the joint modeling of textual and visual information. During training, we employ image-text matching and cross-entropy losses to ensure semantic consistency between visual and language elements. Extensive experiments on the PMR dataset demonstrate FSMR’s superiority over state-of-the-art baseline models across various performance metrics.

arxiv情報

著者 Shuang Li,Jiahua Wang,Lijie Wen
発行日 2024-03-29 07:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク