Do Large Language Models Solve ARC Visual Analogies Like People Do?

要約

抽象推論コーパス (ARC) は、人間と機械向けに設計された視覚的類推推論テストです (Chollet、2019)。
私たちは、新しい子供向け ARC アイテムのセットについて、人間と大規模言語モデル (LLM) のパフォーマンスを比較しました。
結果は、子供と大人の両方がこれらの課題に関してほとんどの LLM よりも優れていることを示しています。
エラー分析により、LLM と幼児でも同様の「フォールバック」解決戦略が明らかになりました。これは、アナロジーの一部が単純にコピーされたものです。
さらに、他の 2 つのエラー タイプも見つかりました。1 つは一見理解できる重要な概念 (例: Inside-Outside) に基づいており、もう 1 つは類似入力行列の単純な組み合わせに基づいています。
全体として、人間では「概念」エラーがより一般的であり、LLM では「行列」エラーがより一般的でした。
この研究は、LLM の推論能力と、LLM が視覚的な類似性をどのように解決するかを理解するためにエラー分析と人間の発達との比較を使用できる範囲に新たな光を当てます。

要約(オリジナル)

The Abstraction Reasoning Corpus (ARC) is a visual analogical reasoning test designed for humans and machines (Chollet, 2019). We compared human and large language model (LLM) performance on a new child-friendly set of ARC items. Results show that both children and adults outperform most LLMs on these tasks. Error analysis revealed a similar ‘fallback’ solution strategy in LLMs and young children, where part of the analogy is simply copied. In addition, we found two other error types, one based on seemingly grasping key concepts (e.g., Inside-Outside) and the other based on simple combinations of analogy input matrices. On the whole, ‘concept’ errors were more common in humans, and ‘matrix’ errors were more common in LLMs. This study sheds new light on LLM reasoning ability and the extent to which we can use error analyses and comparisons with human development to understand how LLMs solve visual analogies.

arxiv情報

著者 Gustaw Opiełka,Hannes Rosenbusch,Veerle Vijverberg,Claire E. Stevenson
発行日 2024-05-13 11:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク