Grounded Image Text Matching with Mismatched Relation Reasoning

要約

本稿では、変換器ベースの事前学習済みモデルの関係理解能力を評価する、新しい視覚-言語合同タスクである、不一致関係付き接地画像テキストマッチング(Grounded Image Text Matching with Mismatched Relation: GITM-MR)を紹介する。GITM-MRは、まず表現が画像を記述しているかどうかを判断し、次に参照されるオブジェクトを特定するか、テキストの不一致部分を接地することをモデルに要求する。我々は、限られたデータと分布外の文の長さという困難な設定に焦点を当て、このタスクで事前訓練されたモデルを評価するためのベンチマークを提供する。我々の評価では、事前訓練されたモデルにはデータ効率と長さの汎化能力が欠けていることが実証された。これに対処するため、我々は、言語構造によって導かれる双方向のメッセージ伝播によって関係を意識した推論を組み込んだ、関係敏感対応推論ネットワーク(RCRN)を提案する。RCRNはモジュール化されたプログラムとして解釈でき、長さの汎化とデータ効率の両方で強力な性能を発揮する。

要約(オリジナル)

This paper introduces Grounded Image Text Matching with Mismatched Relation (GITM-MR), a novel visual-linguistic joint task that evaluates the relation understanding capabilities of transformer-based pre-trained models. GITM-MR requires a model to first determine if an expression describes an image, then localize referred objects or ground the mismatched parts of the text. We provide a benchmark for evaluating pre-trained models on this task, with a focus on the challenging settings of limited data and out-of-distribution sentence lengths. Our evaluation demonstrates that pre-trained models lack data efficiency and length generalization ability. To address this, we propose the Relation-sensitive Correspondence Reasoning Network (RCRN), which incorporates relation-aware reasoning via bi-directional message propagation guided by language structure. RCRN can be interpreted as a modular program and delivers strong performance in both length generalization and data efficiency.

arxiv情報

著者 Yu Wu,Yana Wei,Haozhe Wang,Yongfei Liu,Sibei Yang,Xuming He
発行日 2023-08-04 17:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク