要約
大規模言語モデル (LLM) は、困難な推論ベンチマークで良好なパフォーマンスを達成しますが、基本的な推論の間違いを犯す可能性もあります。
LLM の推論能力の背後にあるメカニズムを理解する場合、この対照的な動作は不可解です。
1 つの仮説は、一般的な推論ベンチマークのパフォーマンスがますます高くなりほぼ飽和状態になっているのは、同様の問題を暗記しているためである可能性があるということです。
この論文では、Knights and Knaves (K&K) パズルに基づいて動的に生成された論理的推論ベンチマークを使用して、推論タスクの記憶力を定量的に測定し、この仮説を体系的に調査します。
LLM は微調整後にトレーニング パズルを補間できる (ほぼ完璧な精度を達成する) ことができますが、それらのパズルがわずかに乱れると失敗することがわかりました。これは、モデルがトレーニング パズルを解くために暗記に大きく依存していることを示唆しています。
一方で、微調整は膨大な暗記につながりますが、汎化パフォーマンスも一貫して向上することを示します。
摂動テスト、難易度間の移行可能性、モデルの内部構造の調査、間違った答えによる微調整による詳細な分析は、LLM がトレーニング データの暗記にも関わらず K&K パズルで推論することを学習していることを示唆しています。
この現象は、LLM が記憶と真の推論能力との間に複雑な相互作用を示すことを示しています。
最後に、サンプルごとの暗記スコアを使用した分析により、LLM が論理パズルを解く際に推論と暗記をどのように切り替えるかが明らかになります。
コードとデータは https://memkklogic.github.io で入手できます。
要約(オリジナル)
Large language models (LLMs) achieve good performance on challenging reasoning benchmarks, yet could also make basic reasoning mistakes. This contrasting behavior is puzzling when it comes to understanding the mechanisms behind LLMs’ reasoning capabilities. One hypothesis is that the increasingly high and nearly saturated performance on common reasoning benchmarks could be due to the memorization of similar problems. In this paper, we systematically investigate this hypothesis with a quantitative measurement of memorization in reasoning tasks, using a dynamically generated logical reasoning benchmark based on Knights and Knaves (K&K) puzzles. We found that LLMs could interpolate the training puzzles (achieving near-perfect accuracy) after fine-tuning, yet fail when those puzzles are slightly perturbed, suggesting that the models heavily rely on memorization to solve those training puzzles. On the other hand, we show that while fine-tuning leads to heavy memorization, it also consistently improves generalization performance. In-depth analyses with perturbation tests, cross difficulty-level transferability, probing model internals, and fine-tuning with wrong answers suggest that the LLMs learn to reason on K&K puzzles despite training data memorization. This phenomenon indicates that LLMs exhibit a complex interplay between memorization and genuine reasoning abilities. Finally, our analysis with per-sample memorization score sheds light on how LLMs switch between reasoning and memorization in solving logical puzzles. Our code and data are available at https://memkklogic.github.io.
arxiv情報
著者 | Chulin Xie,Yangsibo Huang,Chiyuan Zhang,Da Yu,Xinyun Chen,Bill Yuchen Lin,Bo Li,Badih Ghazi,Ravi Kumar |
発行日 | 2024-10-30 15:31:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google