要約
機械に抽象的な推論能力を与えることは、人工知能における長期の研究テーマです。
Raven の Progressive Matrix (RPM) は、機械知能における抽象的な視覚的推論を調査するために広く使用されており、モデルは基礎となるルールを理解し、画像行列を完成させるために候補セットから不足している右下の画像を選択する必要があります。
参加者は、根底にある属性変更ルールを推測し、任意の位置に欠けている画像を想像することで、強力な推論能力を発揮できます。
ただし、既存のソルバーは現実的な RPM 問題でそのような能力を発揮することはほとんどできません。
本稿では,潜在空間におけるルール抽象化と選択(RAISE)を通じて解答生成問題を解決するための条件付き生成モデルを提案する。
RAISE は画像属性を潜在概念としてエンコードし、概念によって基礎となるルールをアトミックなルールに分解します。概念はグローバルな学習可能なパラメータとして抽象化されます。
答えを生成するとき、RAISE は各概念のグローバル知識セットから適切なアトミック ルールを選択し、それらを RPM の統合ルールに組み立てます。
ほとんどの構成で、RAISE は、右下および任意の位置の答えを生成するタスクにおいて、比較した生成ソルバーよりも優れたパフォーマンスを発揮します。
奇数 1 アウト タスクと 2 つのホールドアウト構成で RAISE をテストし、分離された潜在概念とアトミック ルールを学習することで、基礎となるルールを破る画像を見つけ出し、ルールと属性のまだ見ぬ組み合わせを持つ RPM を処理するのにどのように役立つかを実証します。
要約(オリジナル)
Endowing machines with abstract reasoning ability has been a long-term research topic in artificial intelligence. Raven’s Progressive Matrix (RPM) is widely used to probe abstract visual reasoning in machine intelligence, where models need to understand the underlying rules and select the missing bottom-right images out of candidate sets to complete image matrices. The participators can display powerful reasoning ability by inferring the underlying attribute-changing rules and imagining the missing images at arbitrary positions. However, existing solvers can hardly manifest such an ability in realistic RPM problems. In this paper, we propose a conditional generative model to solve answer generation problems through Rule AbstractIon and SElection (RAISE) in the latent space. RAISE encodes image attributes as latent concepts and decomposes underlying rules into atomic rules by means of concepts, which are abstracted as global learnable parameters. When generating the answer, RAISE selects proper atomic rules out of the global knowledge set for each concept and composes them into the integrated rule of an RPM. In most configurations, RAISE outperforms the compared generative solvers in tasks of generating bottom-right and arbitrary-position answers. We test RAISE in the odd-one-out task and two held-out configurations to demonstrate how learning decoupled latent concepts and atomic rules helps find the image breaking the underlying rules and handle RPMs with unseen combinations of rules and attributes.
arxiv情報
著者 | Fan Shi,Bin Li,Xiangyang Xue |
発行日 | 2024-01-18 13:28:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google