Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

要約

大規模言語モデル (LLM) は、多くの場合、基礎モデルのインスタンスであると説明されます。つまり、プリ言語モデルを増やすと機能の向上を予測するスケーリング則を示しながら、少数のショーまたはゼロショットの方法でさまざまなタスクや条件を強力に転送するモデルです。
-トレーニングスケール。
さまざまな機能やタスクで優れているというこれらの主張は、そのようなモデルで高いスコアを示す標準化されたベンチマークのさまざまなセットにわたって取得された測定に依存しています。
ここでは、簡潔な自然言語で定式化された単純で短い従来の常識問題 (AIW 問題) を使用して、強力な機能を主張する利用可能な最大のスケールでトレーニングされた最先端のモデルの機能と推論能力の劇的な内訳を実証します。
、人間が簡単に解決できます。
モデルは、問題解決に影響を及ぼさないはずのわずかな問題の変動でも大きな変動を示し、誤った解決策に対する強い過信を表しており、多くの場合、もっともらしく聞こえる説明のような作話によって裏付けられているため、その内訳は劇的です。
さまざまなタイプの強化されたプロンプトや、複数ステップの再評価によって間違った解決策を再考するようモデルに促すなど、適切な解決策を取得しようとするさまざまな標準的な介入は失敗します。
私たちはこれらの最初の観察を科学技術コミュニティに伝え、現世代の LLM の主張されている機能の緊急の再評価を促します。
このような再評価には、現在の最先端の評価手順やベンチマークでは明らかに発見されないままであるこのような基本的な推論の欠陥を適切に検出できるようにする標準化されたベンチマークを作成するための共通の行動も必要です。
論文内の実験を再現するコードと生の実験データは、https://github.com/LAION-AI/AIW で見つけることができます。

要約(オリジナル)

Large Language Models (LLMs) are often described as being instances of foundation models – that is, models that transfer strongly across various tasks and conditions in few-show or zero-shot manner, while exhibiting scaling laws that predict function improvement when increasing the pre-training scale. These claims of excelling in different functions and tasks rely on measurements taken across various sets of standardized benchmarks showing high scores for such models. We demonstrate here a dramatic breakdown of function and reasoning capabilities of state-of-the-art models trained at the largest available scales which claim strong function, using a simple, short, conventional common sense problem (AIW problem) formulated in concise natural language, easily solvable by humans. The breakdown is dramatic, as models show strong fluctuations across even slight problem variations that should not affect problem solving, also expressing strong overconfidence in the wrong solutions, often backed up by plausible sounding explanation-like confabulations. Various standard interventions in an attempt to get the right solution, like various type of enhanced prompting, or urging the models to reconsider the wrong solutions again by multi step re-evaluation, fail. We take these initial observations to the scientific and technological community to stimulate urgent re-assessment of the claimed capabilities of current generation of LLMs. Such re-assessment also requires common action to create standardized benchmarks that would allow proper detection of such basic reasoning deficits that obviously manage to remain undiscovered by current state-of-the-art evaluation procedures and benchmarks. Code for reproducing experiments in the paper and raw experiments data can be found at https://github.com/LAION-AI/AIW

arxiv情報

著者 Marianna Nezhurina,Lucia Cipolina-Kun,Mehdi Cherti,Jenia Jitsev
発行日 2024-07-11 15:17:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク