要約
空間関係は、人間の認知の基本的な部分です。
ただし、それらはさまざまな方法で自然言語で表現されており、以前の研究では、現在の視覚と言語のモデル (VLM) がリレーショナル情報を取得するのに苦労していることを示唆しています。
このホワイト ペーパーでは、Visual Spatial Reasoning (VSR) を紹介します。これは、英語の 65 種類の空間関係 (下、前、向かいなど) を持つ 10,000 を超える自然なテキストと画像のペアを含むデータセットです。
一見単純な注釈形式を使用しながら、参照フレームの変化など、困難な言語現象がデータセットにどのように含まれているかを示します。
人間とモデルのパフォーマンスの間に大きなギャップがあることを示しています。人間の上限は 95% を超えていますが、最先端のモデルは約 70% しか達成していません。
VLM の by-relation パフォーマンスはトレーニング例の数とほとんど相関がなく、テストされたモデルは一般に、オブジェクトの向きに関する関係を認識できないことがわかります。
要約(オリジナル)
Spatial relations are a basic part of human cognition. However, they are expressed in natural language in a variety of ways, and previous work has suggested that current vision-and-language models (VLMs) struggle to capture relational information. In this paper, we present Visual Spatial Reasoning (VSR), a dataset containing more than 10k natural text-image pairs with 65 types of spatial relations in English (such as: under, in front of, and facing). While using a seemingly simple annotation format, we show how the dataset includes challenging linguistic phenomena, such as varying reference frames. We demonstrate a large gap between human and model performance: the human ceiling is above 95%, while state-of-the-art models only achieve around 70%. We observe that VLMs’ by-relation performances have little correlation with the number of training examples and the tested models are in general incapable of recognising relations concerning the orientations of objects.
arxiv情報
著者 | Fangyu Liu,Guy Emerson,Nigel Collier |
発行日 | 2023-02-09 18:42:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google