要約
本稿では、変換器ベースの事前学習済みモデルの関係理解能力を評価する、新しい視覚-言語合同タスクである、不一致関係付き接地画像テキストマッチング(Grounded Image Text Matching with Mismatched Relation: GITM-MR)を紹介する。GITM-MRは、まず表現が画像を記述しているかどうかを判断し、次に参照されるオブジェクトを特定するか、テキストの不一致部分を接地することをモデルに要求する。我々は、限られたデータと分布外の文の長さという困難な設定に焦点を当て、このタスクで事前訓練されたモデルを評価するためのベンチマークを提供する。我々の評価では、事前訓練されたモデルにはデータ効率と長さの汎化能力が欠けていることが実証された。これに対処するため、我々は、言語構造によって導かれる双方向のメッセージ伝播によって関係を意識した推論を組み込んだ、関係敏感対応推論ネットワーク(RCRN)を提案する。RCRNはモジュール化されたプログラムとして解釈でき、長さの汎化とデータ効率の両方で強力な性能を発揮する。
要約(オリジナル)
This paper introduces Grounded Image Text Matching with Mismatched Relation (GITM-MR), a novel visual-linguistic joint task that evaluates the relation understanding capabilities of transformer-based pre-trained models. GITM-MR requires a model to first determine if an expression describes an image, then localize referred objects or ground the mismatched parts of the text. We provide a benchmark for evaluating pre-trained models on this task, with a focus on the challenging settings of limited data and out-of-distribution sentence lengths. Our evaluation demonstrates that pre-trained models lack data efficiency and length generalization ability. To address this, we propose the Relation-sensitive Correspondence Reasoning Network (RCRN), which incorporates relation-aware reasoning via bi-directional message propagation guided by language structure. RCRN can be interpreted as a modular program and delivers strong performance in both length generalization and data efficiency.
arxiv情報
著者 | Yu Wu,Yana Wei,Haozhe Wang,Yongfei Liu,Sibei Yang,Xuming He |
発行日 | 2023-08-04 17:51:57+00:00 |
arxivサイト | arxiv_id(pdf) |