要約
大規模言語モデル (LLM) の優れた機能は、これらのモデルが本当に目に見えないタスクに一般化しているのか、それとも主に大量の事前トレーニング データの記憶に依存しているのかについての議論を引き起こしています。
この問題を調査するために、LLM 出力確率と事前トレーニング データ頻度の間の相関関係を測定する、記憶の拡張概念である分布記憶を導入します。
タスク固有の事前学習データ頻度を効果的に捕捉するために、我々は新しいタスクグラム言語モデルを提案します。この言語モデルは、事前学習コーパス内のタスクの入力と出力から意味的に関連する $n$-gram ペアの共起をカウントすることによって構築されます。
Pile データセットでトレーニングされた Pythia モデルを使用して、機械翻訳、事実に基づく質問への回答、世界の知識の理解、数学的推論という 4 つの異なるタスクを評価します。
私たちの調査結果では、さまざまなレベルの暗記が明らかになり、事実に基づいた質問応答で最も強い効果が観察されました。
さらに、LLM サイズが増加するにつれてモデルのパフォーマンスはすべてのタスクにわたって向上しますが、記憶力の増加を示すのは事実に基づく質問応答だけですが、機械翻訳と推論タスクはより一般化が進んでおり、より新しい出力が生成されます。
この研究は、より単純で知識集約的なタスクでは暗記がより大きな役割を果たす一方、より困難で推論ベースのタスクでは一般化が鍵となり、大規模な事前トレーニングコーパスをより深く分析するためのスケーラブルな方法を提供することを示しています。
また、新しいプロンプト最適化アルゴリズムを通じて、分析の実際的な意味も示します。
要約(オリジナル)
The impressive capabilities of large language models (LLMs) have sparked debate over whether these models genuinely generalize to unseen tasks or predominantly rely on memorizing vast amounts of pretraining data. To explore this issue, we introduce an extended concept of memorization, distributional memorization, which measures the correlation between the LLM output probabilities and the pretraining data frequency. To effectively capture task-specific pretraining data frequency, we propose a novel task-gram language model, which is built by counting the co-occurrence of semantically related $n$-gram pairs from task inputs and outputs in the pretraining corpus. Using the Pythia models trained on the Pile dataset, we evaluate four distinct tasks: machine translation, factual question answering, world knowledge understanding, and math reasoning. Our findings reveal varying levels of memorization, with the strongest effect observed in factual question answering. Furthermore, while model performance improves across all tasks as LLM size increases, only factual question answering shows an increase in memorization, whereas machine translation and reasoning tasks exhibit greater generalization, producing more novel outputs. This study demonstrates that memorization plays a larger role in simpler, knowledge-intensive tasks, while generalization is the key for harder, reasoning-based tasks, providing a scalable method for analyzing large pretraining corpora in greater depth. We also show the practical implications of our analysis through a novel prompt optimization algorithm.
arxiv情報
著者 | Xinyi Wang,Antonis Antoniades,Yanai Elazar,Alfonso Amayuelas,Alon Albalak,Kexun Zhang,William Yang Wang |
発行日 | 2024-11-27 17:05:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google