Are Deep Neural Networks SMARTer than Second Graders?

要約

近年、囲碁、アート、ChatGPTなど、優れた認知能力を必要とするタスクの解決に、ディープニューラルネットワークが応用されるケースが増加している。このような飛躍的な進歩は、「幅広いスキルが要求される問題の解決において、ニューラルネットワークはどの程度一般化できるのか」という問いを提起します。この問いに答えるため、我々は、6~8歳の子供向けに特別にデザインされた視覚言語パズルを解く際のニューラルネットワークの抽象化、演繹、汎化能力を評価するSMART: a Simple Multimodal Algorithmic Reasoning Taskと関連するSMART-101データセットを提案します。各パズルは絵と問題で構成され、その解答には算数、代数、空間推理など、いくつかの初歩的なスキルの組み合わせが必要です。このデータセットをディープニューラルネットワークのトレーニング用に拡張するため、各パズルの解法アルゴリズムはそのままに、全く新しいインスタンスをプログラムによって生成しました。SMART-101の性能をベンチマークするために、様々な最先端のバックボーンを使用した視覚と言語のメタ学習モデルを提案しました。我々の実験では、強力なディープモデルが教師あり設定でパズルに対して妥当な性能を発揮する一方で、一般化について分析するとランダムな精度よりも優れていないことが明らかになりました。また、SMART-101の一部で最近のChatGPTや他の大規模言語モデルを評価し、これらのモデルは説得力のある推論能力を示す一方で、回答はしばしば不正確であることを発見した。

要約(オリジナル)

Recent times have witnessed an increasing number of applications of deep neural networks towards solving tasks that require superior cognitive abilities, e.g., playing Go, generating art, ChatGPT, etc. Such a dramatic progress raises the question: how generalizable are neural networks in solving problems that demand broad skills? To answer this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task and the associated SMART-101 dataset, for evaluating the abstraction, deduction, and generalization abilities of neural networks in solving visuo-linguistic puzzles designed specifically for children in the 6–8 age group. Our dataset consists of 101 unique puzzles; each puzzle comprises a picture and a question, and their solution needs a mix of several elementary skills, including arithmetic, algebra, and spatial reasoning, among others. To scale our dataset towards training deep neural networks, we programmatically generate entirely new instances for each puzzle, while retaining their solution algorithm. To benchmark performances on SMART-101, we propose a vision and language meta-learning model using varied state-of-the-art backbones. Our experiments reveal that while powerful deep models offer reasonable performances on puzzles in a supervised setting, they are not better than random accuracy when analyzed for generalization. We also evaluate the recent ChatGPT and other large language models on a part of SMART-101 and find that while these models show convincing reasoning abilities, the answers are often incorrect.

arxiv情報

著者 Anoop Cherian,Kuan-Chuan Peng,Suhas Lohit,Kevin A. Smith,Joshua B. Tenenbaum
発行日 2023-06-02 15:17:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク