Advancing Visual Grounding with Scene Knowledge: Benchmark and Method

要約

ビジュアルグラウンディング(VG)は、視覚と言語の間のきめ細かい調整を確立することを目的としています。
理想的には、視覚と言語のモデルが画像とテキストの理解を評価し、関節空間にわたる推論能力を評価するためのテストベッドとなることができます。
ただし、既存の VG データセットのほとんどは単純な説明テキストを使用して構築されており、画像やテキストに対する十分な推論は必要ありません。
これは、最近の研究 ~\cite{luo2022goes} で実証されており、事前トレーニングを行わない単純な LSTM ベースのテキスト エンコーダーが、主流の VG データセットで最先端のパフォーマンスを達成できます。
したがって、この論文では、\underline{S}cene \underline{K}nowledge-guided \underline{V}isual \underline{G}rounding (SK-VG) の新しいベンチマークを提案します。このベンチマークでは、画像コンテンツと参照表現がターゲット オブジェクトを根拠付けるのに十分ではなく、モデルに長い形式のシーン知識に基づいた推論能力を持たせる必要があります。
このタスクを実行するために、トリプルタイプの入力を受け入れる 2 つのアプローチを提案します。前者は、画像とクエリの対話の前に画像特徴に知識を埋め込みます。
後者は言語構造を利用して画像とテキストのマッチングの計算を支援します。
我々は上記の方法を分析するために広範な実験を実施し、提案されたアプローチが有望な結果を達成するものの、パフォーマンスや解釈可能性を含めてまだ改善の余地があることを示します。
データセットとコードは \url{https://github.com/zhjohnchan/SK-VG} で入手できます。

要約(オリジナル)

Visual grounding (VG) aims to establish fine-grained alignment between vision and language. Ideally, it can be a testbed for vision-and-language models to evaluate their understanding of the images and texts and their reasoning abilities over their joint space. However, most existing VG datasets are constructed using simple description texts, which do not require sufficient reasoning over the images and texts. This has been demonstrated in a recent study~\cite{luo2022goes}, where a simple LSTM-based text encoder without pretraining can achieve state-of-the-art performance on mainstream VG datasets. Therefore, in this paper, we propose a novel benchmark of \underline{S}cene \underline{K}nowledge-guided \underline{V}isual \underline{G}rounding (SK-VG), where the image content and referring expressions are not sufficient to ground the target objects, forcing the models to have a reasoning ability on the long-form scene knowledge. To perform this task, we propose two approaches to accept the triple-type input, where the former embeds knowledge into the image features before the image-query interaction; the latter leverages linguistic structure to assist in computing the image-text matching. We conduct extensive experiments to analyze the above methods and show that the proposed approaches achieve promising results but still leave room for improvement, including performance and interpretability. The dataset and code are available at \url{https://github.com/zhjohnchan/SK-VG}.

arxiv情報

著者 Zhihong Chen,Ruifei Zhang,Yibing Song,Xiang Wan,Guanbin Li
発行日 2023-07-21 13:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク