A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues

要約

【タイトル】テキストと画像の共通ヒントに対する条件付き推論のためのマルチモーダルコンテキスト推論アプローチ

【要約】
– テキストと画像の共通ヒントに対する条件付き推論は、テキストによって補完される視覚情報と、正しいオプションが導き出されるために重要な外部知識を提供する。
– 以前の手法では、事前学習済みビジョン-言語モデル(VLM)を使用して印象的なパフォーマンスを得たが、テキストモーダル情報に特にマルチモーダルコンテキスト推論能力が欠落しているという課題があった。
– この問題に対処するため、モダルCRという名前のマルチモーダルコンテキスト推論アプローチを提案する。
– これは、クロスモーダル意味の整合性によって推理を行うVLMと異なり、与えられたテキスト抽象的意味と客観的画像情報を事前コンテキスト情報として扱い、言語モデルに埋め込んでコンテキスト推論を行う。
– 最近の自然言語処理で使用されるビジョン補助言語モデルとは異なり、ModCRは、モアダル推論シナリオに適した言語モデルを形成するために、言語とビジョンの多視点意味的整合情報を可学習のアライメントプレフィックスで導入する。
– 2つの対応するデータセットで詳細な実験を行い、実験結果は、以前の強力なベースラインに比べて、有意に改良されたパフォーマンス(PMRテストセットで4.8%の正確な増加)を示している。

要約(オリジナル)

Conditional inference on joint textual and visual clues is a multi-modal reasoning task that textual clues provide prior permutation or external knowledge, which are complementary with visual content and pivotal to deducing the correct option. Previous methods utilizing pretrained vision-language models (VLMs) have achieved impressive performances, yet they show a lack of multimodal context reasoning capability, especially for text-modal information. To address this issue, we propose a Multi-modal Context Reasoning approach, named ModCR. Compared to VLMs performing reasoning via cross modal semantic alignment, it regards the given textual abstract semantic and objective image information as the pre-context information and embeds them into the language model to perform context reasoning. Different from recent vision-aided language models used in natural language processing, ModCR incorporates the multi-view semantic alignment information between language and vision by introducing the learnable alignment prefix between image and text in the pretrained language model. This makes the language model well-suitable for such multi-modal reasoning scenario on joint textual and visual clues. We conduct extensive experiments on two corresponding data sets and experimental results show significantly improved performance (exact gain by 4.8% on PMR test set) compared to previous strong baselines. Code Link: \url{https://github.com/YunxinLi/Multimodal-Context-Reasoning}.

arxiv情報

著者 Yunxin Li,Baotian Hu,Xinyu Chen,Yuxin Ding,Lin Ma,Min Zhang
発行日 2023-05-08 08:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク