要約
大規模言語モデルの時代における 2 つの主要な関心領域は、LLM が何を知っているのか、また推論 (または、ほぼ推論) できるかどうか、またどのように推論できるのかという問題に関するものです。
現在まで、これらの一連の作業は (顕著な例外を除いて) ほぼ並行して進められてきたため、私たちは交差点の調査、つまり暗黙的に保持されている知識についての推論の調査に興味を持っています。
この領域のパフォーマンスが不足しているのではないかと考え、さまざまな主題の要素に関連付けられたカーディナリティ (鳥の脚の数と三輪車の車輪の数など) を比較する非常に単純な設定を使用します。
私たちは、LLM が新しい GPT リリースごとに知識の獲得と (疑似) 推論において着実に進歩しているものの、その能力は統計的推論のみに限定されているということを経験的に示しています。
純粋な統計学習が、特に算術概念が関与する場合、多くの常識的な推論タスクに内在する組み合わせ爆発に対処できるかどうかを議論するのは困難です。
さらに、私たちは、規模が大きいほど必ずしも良いわけではなく、純粋に統計的な改善を追求することには根本的な欠陥があると主張します。なぜなら、それは正しい答えの生成と真の推論能力との危険な混同を悪化させるだけだからです。
要約(オリジナル)
Two major areas of interest in the era of Large Language Models regard questions of what do LLMs know, and if and how they may be able to reason (or rather, approximately reason). Since to date these lines of work progressed largely in parallel (with notable exceptions), we are interested in investigating the intersection: probing for reasoning about the implicitly-held knowledge. Suspecting the performance to be lacking in this area, we use a very simple set-up of comparisons between cardinalities associated with elements of various subjects (e.g. the number of legs a bird has versus the number of wheels on a tricycle). We empirically demonstrate that although LLMs make steady progress in knowledge acquisition and (pseudo)reasoning with each new GPT release, their capabilities are limited to statistical inference only. It is difficult to argue that pure statistical learning can cope with the combinatorial explosion inherent in many commonsense reasoning tasks, especially once arithmetical notions are involved. Further, we argue that bigger is not always better and chasing purely statistical improvements is flawed at the core, since it only exacerbates the dangerous conflation of the production of correct answers with genuine reasoning ability.
arxiv情報
著者 | D. Panas,S. Seth,V. Belle |
発行日 | 2024-04-30 10:28:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google