要約
LLMは様々なNLPタスクで強力なパフォーマンスを示しているが、これらのタスクのほとんどが、予備知識なしに新しい問題を解くのではなく、LLMのパラメータにエンコードされた膨大な知識を活用することに依存していることは注目に値する。認知研究では、後者の能力は流動性知能と呼ばれ、人間の知能を評価する上で重要であると考えられている。流動性知能の評価に関する最近の研究では、LLMの能力に重大な欠陥があることが浮き彫りになっている。本論文では、最も代表的なARC課題を例として、LLMが流動性知能を対照実験によって実証する際に直面する課題を分析する。我々の研究は、既存のLLMの3つの主要な限界を明らかにした:スキル構成能力の制限、抽象的な入力形式への不慣れ、左から右へのデコーディングの本質的な欠陥である。我々のデータとコードはhttps://wujunjie1998.github.io/araoc-benchmark.github.io/。
要約(オリジナル)
While LLMs have exhibited strong performance on various NLP tasks, it is noteworthy that most of these tasks rely on utilizing the vast amount of knowledge encoded in LLMs’ parameters, rather than solving new problems without prior knowledge. In cognitive research, the latter ability is referred to as fluid intelligence, which is considered to be critical for assessing human intelligence. Recent research on fluid intelligence assessments has highlighted significant deficiencies in LLMs’ abilities. In this paper, we analyze the challenges LLMs face in demonstrating fluid intelligence through controlled experiments, using the most representative ARC task as an example. Our study revealed three major limitations in existing LLMs: limited ability for skill composition, unfamiliarity with abstract input formats, and the intrinsic deficiency of left-to-right decoding. Our data and code can be found in https://wujunjie1998.github.io/araoc-benchmark.github.io/.
arxiv情報
著者 | Junjie Wu,Mo Yu,Lemao Liu,Dit-Yan Yeung,Jie Zhou |
発行日 | 2025-03-03 06:50:25+00:00 |
arxivサイト | arxiv_id(pdf) |