Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning

要約

空間的推論は知的エージェントにとって特別な課題であり、同時に物理世界での相互作用とコミュニケーションを成功させるための必要条件である。このような推論タスクの1つは、ある参照オブジェクトの固有の方向に関して、ターゲットオブジェクトの位置を相対的な方向で記述することである。本論文では、抽象的なオブジェクトに基づく新しい診断用視覚的質問応答(VQA)データセットであるGRiD-A-3Dを紹介する。このデータセットにより、エンドツーエンドVQAモデルの相対的な方向性の根拠となる能力をきめ細かく分析することができる。同時に、モデルの学習には既存のデータセットに比べてかなり少ない計算資源で済み、しかも同等かそれ以上の性能を得ることができます。新しいデータセットとともに、GRiD-A-3Dで学習させた広く知られた2つのエンドツーエンドVQAアーキテクチャに基づく徹底的な評価も行っています。その結果、数エポック以内に、シーン内の物体の認識・位置特定や固有方向の推定など、相対的方向に関する推論に必要なサブタスクが、相対的方向が直感的に処理される順序で学習されることが実証された。

要約(オリジナル)

Spatial reasoning poses a particular challenge for intelligent agents and is at the same time a prerequisite for their successful interaction and communication in the physical world. One such reasoning task is to describe the position of a target object with respect to the intrinsic orientation of some reference object via relative directions. In this paper, we introduce GRiD-A-3D, a novel diagnostic visual question-answering (VQA) dataset based on abstract objects. Our dataset allows for a fine-grained analysis of end-to-end VQA models’ capabilities to ground relative directions. At the same time, model training requires considerably fewer computational resources compared with existing datasets, yet yields a comparable or even higher performance. Along with the new dataset, we provide a thorough evaluation based on two widely known end-to-end VQA architectures trained on GRiD-A-3D. We demonstrate that within a few epochs, the subtasks required to reason over relative directions, such as recognizing and locating objects in a scene and estimating their intrinsic orientations, are learned in the order in which relative directions are intuitively processed.

arxiv情報

著者 Kyra Ahrens,Matthias Kerzel,Jae Hee Lee,Cornelius Weber,Stefan Wermter
発行日 2022-07-06 12:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク