Abstract Visual Reasoning Enabled by Language

要約

人工知能 (AI) モデルは、明確に定義された多くのアプリケーションで人間的、あるいは超人的なパフォーマンスを達成していますが、依然として広範で柔軟な知能の兆候を示すのに苦労しています。
Fran\cois Chollet によって導入された視覚知能ベンチマークである Abstraction and Reasoning Corpus (ARC) は、AI システムが人間のような認知能力にどの程度近づいているかを評価することを目的としています。
現在のアプローチのほとんどは、ARC に存在するタスクを総当たりで解決するための、慎重に手作りされたドメイン固有のプログラム検索に依存しています。
この研究では、ARC を解決するための一般的な学習ベースのフレームワークを提案します。
それはタスクをビジョンから言語領域に変換することに重点を置いています。
この言語とビジョンの構成により、事前トレーニングされたモデルを各段階で活用できるようになり、モデルの手作りの事前分布から学習された事前分布への移行が可能になります。
ARC ではまだ最先端のモデルに勝るものではありませんが、これまで解決されていなかったいくつかの ARC タスクを解決するなど、私たちのアプローチの可能性を実証しています。

要約(オリジナル)

While artificial intelligence (AI) models have achieved human or even superhuman performance in many well-defined applications, they still struggle to show signs of broad and flexible intelligence. The Abstraction and Reasoning Corpus (ARC), a visual intelligence benchmark introduced by Fran\c{c}ois Chollet, aims to assess how close AI systems are to human-like cognitive abilities. Most current approaches rely on carefully handcrafted domain-specific program searches to brute-force solutions for the tasks present in ARC. In this work, we propose a general learning-based framework for solving ARC. It is centered on transforming tasks from the vision to the language domain. This composition of language and vision allows for pre-trained models to be leveraged at each stage, enabling a shift from handcrafted priors towards the learned priors of the models. While not yet beating state-of-the-art models on ARC, we demonstrate the potential of our approach, for instance, by solving some ARC tasks that have not been solved previously.

arxiv情報

著者 Giacomo Camposampiero,Loic Houmard,Benjamin Estermann,Joël Mathys,Roger Wattenhofer
発行日 2023-06-22 10:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク