Solving ARC visual analogies with neural embeddings and vector arithmetic: A generalized method

要約

類推推論は、既知の関係から情報を導き出し、この情報を類似しているが馴染みのない状況に一般化します。
ディープ ラーニング モデルが言葉の類似性を解決できる最初の一般化された方法の 1 つは、単語埋め込みのベクトル演算によるもので、基本的にベクトル空間にマッピングされた単語を関連付けるものでした (例: 王様 – 男性 + 女性 = __?)。
それに比べて、視覚的な類似性を解決しようとするほとんどの試みは、依然として主にタスク固有であり、一般化可能性が低いです。
このプロジェクトは視覚的な類推推論に焦点を当て、言語的な類推を解決するために使用される初期の一般化されたメカニズムを視覚的な領域に適用します。
視覚的類似性の解決を調査するための例として抽象推論コーパス (ARC) を取り上げ、変分オートエンコーダー (VAE) を使用して、ARC アイテムを、口頭アプローチで使用される単語埋め込みに類似した低次元の潜在ベクトルに変換します。
単純なベクトル演算を通じて、ARC 項目の基礎となるルールが発見され、それらを解決するために使用されます。
結果は、このアプローチが、次元が少ない単純なアイテム (つまり、使用される色が少なく、形状が均一)、同様の入力から出力の例、および VAE での高い再構成精度でうまく機能することを示しています。
より複雑なアイテムの予測では、予想される出力からの大きな逸脱が示されましたが、予測は依然としてアイテムのルール セットの一部に近似していることがよくありました。
エラー パターンは、モデルが意図したとおりに動作していることを示しました。
公式の ARC パラダイムでは、モデルは 2% のスコアを達成しました (現在の世界記録は 21% を参照)、ConceptARC では 8.8% のスコアを獲得しました。
提案された方法論には基本的な次元削減技術と標準ベクトル演算が含まれていますが、このアプローチは ARC で有望な結果を示しており、他の抽象的な視覚的推論タスクにも簡単に一般化できます。

要約(オリジナル)

Analogical reasoning derives information from known relations and generalizes this information to similar yet unfamiliar situations. One of the first generalized ways in which deep learning models were able to solve verbal analogies was through vector arithmetic of word embeddings, essentially relating words that were mapped to a vector space (e.g., king – man + woman = __?). In comparison, most attempts to solve visual analogies are still predominantly task-specific and less generalizable. This project focuses on visual analogical reasoning and applies the initial generalized mechanism used to solve verbal analogies to the visual realm. Taking the Abstraction and Reasoning Corpus (ARC) as an example to investigate visual analogy solving, we use a variational autoencoder (VAE) to transform ARC items into low-dimensional latent vectors, analogous to the word embeddings used in the verbal approaches. Through simple vector arithmetic, underlying rules of ARC items are discovered and used to solve them. Results indicate that the approach works well on simple items with fewer dimensions (i.e., few colors used, uniform shapes), similar input-to-output examples, and high reconstruction accuracy on the VAE. Predictions on more complex items showed stronger deviations from expected outputs, although, predictions still often approximated parts of the item’s rule set. Error patterns indicated that the model works as intended. On the official ARC paradigm, the model achieved a score of 2% (cf. current world record is 21%) and on ConceptARC it scored 8.8%. Although the methodology proposed involves basic dimensionality reduction techniques and standard vector arithmetic, this approach demonstrates promising outcomes on ARC and can easily be generalized to other abstract visual reasoning tasks.

arxiv情報

著者 Luca H. Thoms,Karel A. Veldkamp,Hannes Rosenbusch,Claire E. Stevenson
発行日 2023-11-14 11:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク