Abstract Visual Reasoning with Tangram Shapes

要約

人間と機械の抽象的な視覚的推論を研究するためのリソースである KiloGram を紹介します。
認知科学における刺激としてのタングラム パズルの歴史を利用して、以前のリソースよりも桁違いに大きく多様な、1,000 を超える異なる刺激を含む、豊富な注釈付きのデータセットを構築します。
視覚的にも言語的にも豊かで、形状全体の説明を超えて、セグメンテーション マップとパーツ ラベルが含まれています。
このリソースを使用して、最近のマルチモーダル モデルの抽象的な視覚的推論能力を評価します。
事前にトレーニングされた重みは、限定された抽象的な推論を示していることがわかります。これは、微調整によって劇的に改善されます。
また、パーツを明示的に記述することは、特に言語入力と視覚入力を一緒にエンコードする場合に、人間とモデルの両方の抽象的な推論に役立つことも観察しています。
キログラムは https://lil.nlp.cornell.edu/kilogram で入手できます。

要約(オリジナル)

We introduce KiloGram, a resource for studying abstract visual reasoning in humans and machines. Drawing on the history of tangram puzzles as stimuli in cognitive science, we build a richly annotated dataset that, with >1k distinct stimuli, is orders of magnitude larger and more diverse than prior resources. It is both visually and linguistically richer, moving beyond whole shape descriptions to include segmentation maps and part labels. We use this resource to evaluate the abstract visual reasoning capacities of recent multi-modal models. We observe that pre-trained weights demonstrate limited abstract reasoning, which dramatically improves with fine-tuning. We also observe that explicitly describing parts aids abstract reasoning for both humans and models, especially when jointly encoding the linguistic and visual inputs. KiloGram is available at https://lil.nlp.cornell.edu/kilogram .

arxiv情報

著者 Anya Ji,Noriyuki Kojima,Noah Rush,Alane Suhr,Wai Keen Vong,Robert D. Hawkins,Yoav Artzi
発行日 2022-11-29 18:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク