Grounded Image Text Matching with Mismatched Relation Reasoning

要約

この論文では、トランスフォーマーベースの事前トレーニング済みモデルの関係理解能力を評価する新しい視覚言語共同タスクである、Grounded Image Text Matching with Mismatched Relation (GITM-MR) を紹介します。
GITM-MR では、モデルが最初に式が画像を表しているかどうかを判断し、次に参照オブジェクトの位置を特定するか、テキストの不一致部分を特定する必要があります。
限られたデータと分布外の文の長さという難しい設定に焦点を当てて、このタスクに関する事前トレーニング済みモデルを評価するためのベンチマークを提供します。
私たちの評価では、事前トレーニングされたモデルにはデータ効率と長さの汎化能力が欠けていることがわかりました。
これに対処するために、我々は、言語構造に基づいた双方向メッセージ伝播による関係を意識した推論を組み込んだ、関係に敏感な対応推論ネットワーク (RCRN) を提案します。
RCRN はモジュール型プログラムとして解釈でき、長さの一般化とデータ効率の両方で強力なパフォーマンスを実現します。

要約(オリジナル)

This paper introduces Grounded Image Text Matching with Mismatched Relation (GITM-MR), a novel visual-linguistic joint task that evaluates the relation understanding capabilities of transformer-based pre-trained models. GITM-MR requires a model to first determine if an expression describes an image, then localize referred objects or ground the mismatched parts of the text. We provide a benchmark for evaluating pre-trained models on this task, with a focus on the challenging settings of limited data and out-of-distribution sentence lengths. Our evaluation demonstrates that pre-trained models lack data efficiency and length generalization ability. To address this, we propose the Relation-sensitive Correspondence Reasoning Network (RCRN), which incorporates relation-aware reasoning via bi-directional message propagation guided by language structure. RCRN can be interpreted as a modular program and delivers strong performance in both length generalization and data efficiency.

arxiv情報

著者 Yu Wu,Yana Wei,Haozhe Wang,Yongfei Liu,Sibei Yang,Xuming He
発行日 2023-08-02 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク