Are Deep Neural Networks SMARTer than Second Graders?

要約

タイトル:深層ニューラルネットワークは小学生よりも賢いのか?

要約:
– 深層ニューラルネットワークは、極めて高度な認知能力が必要なタスク(囲碁、芸術生成、ChatGPTなど)に向けられたアプリケーションが増えている。
– このような進歩が顕著な状況で、ニューラルネットワークが広範なスキルを求められる問題解決にどの程度適用できるかが問われるようになった。
– この問いに答えるため、6-8歳児を対象にした視覚言語的パズルを用いたSMARTタスクと、これに対応するSMART-101データセットを提案する。
– データセットは、101の異なるパズルで構成され、各パズルには算数、代数、空間理解などの複数の初等的なスキルが必要となる。
– ディープニューラルネットワークをトレーニングするために、各パズルに対して新しいインスタンスを自動生成し、ソリューションアルゴリズムを保持する。
– SMART-101の実験に対するタスクのパフォーマンスを評価するために、最新のバックボーンを使用したビジョンおよび言語メタ学習モデルを提案する。
– 実験の結果、強力な深層モデルは、監視された設定のパズルに対して合理的なパフォーマンスを示すが、汎化能力に対してはランダム精度よりも優れていないことが示された。
– ChatGPTなどの大型言語モデルによる実験も行い、これらのモデルは説得力のある推論能力を示すが、回答はしばしば不正確であった。

要約(オリジナル)

Recent times have witnessed an increasing number of applications of deep neural networks towards solving tasks that require superior cognitive abilities, e.g., playing Go, generating art, ChatGPT, etc. Such a dramatic progress raises the question: how generalizable are neural networks in solving problems that demand broad skills? To answer this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task and the associated SMART-101 dataset, for evaluating the abstraction, deduction, and generalization abilities of neural networks in solving visuo-linguistic puzzles designed specifically for children in the 6–8 age group. Our dataset consists of 101 unique puzzles; each puzzle comprises a picture and a question, and their solution needs a mix of several elementary skills, including arithmetic, algebra, and spatial reasoning, among others. To scale our dataset towards training deep neural networks, we programmatically generate entirely new instances for each puzzle, while retaining their solution algorithm. To benchmark performances on SMART-101, we propose a vision and language meta-learning model using varied state-of-the-art backbones. Our experiments reveal that while powerful deep models offer reasonable performances on puzzles in a supervised setting, they are not better than random accuracy when analyzed for generalization. We also evaluate the recent ChatGPT and other large language models on a part of SMART-101 and find that while these models show convincing reasoning abilities, the answers are often incorrect.

arxiv情報

著者 Anoop Cherian,Kuan-Chuan Peng,Suhas Lohit,Kevin A. Smith,Joshua B. Tenenbaum
発行日 2023-04-25 16:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク