Grounding Spatial Relations in Text-Only Language Models

要約

この論文は、オブジェクトの明示的な位置情報が提供され、それらの位置を活用するように適切にトレーニングされている場合、テキストのみの言語モデル (LM) が「~の左」または「下」のような空間関係を基礎づけることを学習できることを示しています。
私たちは、視覚空間推論 (VSR) データセットの言語化されたバージョンで実験を実行します。このデータセットでは、画像の 2 つのオブジェクト間の本物または偽の空間関係を含むテキストのステートメントと画像が結合されています。
既製の物体検出器を使用して画像を言語化し、すべての物体ラベルに位置トークンを追加して境界ボックスをテキスト形式で表します。
VSR のサイズが小さいため、位置を使用した場合には改善は見られませんが、自動的に導出された合成データセットに対して LM を事前トレーニングすると、位置トークンを使用した場合の結果が大幅に改善されます。
したがって、テキストのみの LM が視覚と言語モデルを上回り、VSR データセットの新しい最先端を確立することで、場所によって LM が空間関係を確立できることがわかりました。
私たちの分析によると、テキストのみの LM は、合成データセットに見られる関係をある程度超えて一般化でき、合成データセット自体の作成に使用した空間ルールにエンコードされた情報よりも有用な情報も学習できることがわかりました。

要約(オリジナル)

This paper shows that text-only Language Models (LM) can learn to ground spatial relations like ‘left of’ or ‘below’ if they are provided with explicit location information of objects and they are properly trained to leverage those locations. We perform experiments on a verbalized version of the Visual Spatial Reasoning (VSR) dataset, where images are coupled with textual statements which contain real or fake spatial relations between two objects of the image. We verbalize the images using an off-the-shelf object detector, adding location tokens to every object label to represent their bounding boxes in textual form. Given the small size of VSR, we do not observe any improvement when using locations, but pretraining the LM over a synthetic dataset automatically derived by us improves results significantly when using location tokens. We thus show that locations allow LMs to ground spatial relations, with our text-only LMs outperforming Vision-and-Language Models and setting the new state-of-the-art for the VSR dataset. Our analysis show that our text-only LMs can generalize beyond the relations seen in the synthetic dataset to some extent, learning also more useful information than that encoded in the spatial rules we used to create the synthetic dataset itself.

arxiv情報

著者 Gorka Azkune,Ander Salaberria,Eneko Agirre
発行日 2024-03-20 15:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク