Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices

要約

抽象的な推論の実行を学習するには、多くの場合、問題のタスクを中間のサブ目標に分解する必要があります。これらのサブ目標は、事前に指定されていないが、学習者が自律的に考案する必要があります。
Raven Progressive Matrices (RPM) のタスクは、コンテキストが与えられた場合に利用可能な回答の 1 つを選択することです。コンテキストと回答の両方は、さまざまな空間配置で複数のオブジェクトを特徴とする合成画像です。
この高レベルの目標が利用可能な唯一のガイダンスであるため、RPM を解決する方法を学ぶのは困難です。
この研究では、トランスフォーマーのブループリントに基づいた深層学習アーキテクチャを提案します。これは、上記の選択を直接行うのではなく、個々のオブジェクトとその配置の視覚的特性を予測するというサブ目標に取り組みます。
このようにして得られた多次元の予測は、答えを選択するために直接並べられます。
モデルが視覚入力をトークンに解析するいくつかの方法と、自己教師ありトレーニングで入力の部分をマスクするいくつかの方式を検討します。
実験的評価において、モデルは最先端の手法を上回るパフォーマンスを発揮するだけでなく、推論に関する興味深い洞察と部分的な説明も提供します。
このメソッドの設計により、一部の RPM ベンチマークに存在することが知られているバイアスの影響を受けなくなります。

要約(オリジナル)

Learning to perform abstract reasoning often requires decomposing the task in question into intermediate subgoals that are not specified upfront, but need to be autonomously devised by the learner. In Raven Progressive Matrices (RPM), the task is to choose one of the available answers given a context, where both the context and answers are composite images featuring multiple objects in various spatial arrangements. As this high-level goal is the only guidance available, learning to solve RPMs is challenging. In this study, we propose a deep learning architecture based on the transformer blueprint which, rather than directly making the above choice, addresses the subgoal of predicting the visual properties of individual objects and their arrangements. The multidimensional predictions obtained in this way are then directly juxtaposed to choose the answer. We consider a few ways in which the model parses the visual input into tokens and several regimes of masking parts of the input in self-supervised training. In experimental assessment, the models not only outperform state-of-the-art methods but also provide interesting insights and partial explanations about the inference. The design of the method also makes it immune to biases that are known to be present in some RPM benchmarks.

arxiv情報

著者 Jakub Kwiatkowski,Krzysztof Krawiec
発行日 2024-03-07 18:17:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.CV, cs.LG, I.2.10 パーマリンク