要約
大規模言語モデル (LLM) は、複雑なクエリを理解し、高度なタスクを実行する際に優れた能力を示していますが、一般化能力は暗記と深く絡み合っていることが多く、より正確な評価が必要です。
この課題に対処するために、LLM の汎化能力を定量的に測定する動的評価フレームワークである Scylla を紹介します。
Scylla は、5 つの複雑さレベルにわたる 20 のタスクを通じて、分布内 (ID) と分布外 (OOD) データの両方でモデルのパフォーマンスを評価することで、一般化と暗記を解きほぐします。
広範な実験を通じて、タスクの複雑さと、ID データと OOD データの間のパフォーマンス ギャップとの間の非単調な関係を明らかにしました。これを汎化谷と呼んでいます。
具体的には、この現象は、一般化不可能な動作への依存がピークに達する臨界複雑性と呼ばれる臨界しきい値を明らかにし、LLM の一般化能力の上限を示します。
モデルのサイズが大きくなるにつれて、重要な複雑さはより高いレベルのタスクの複雑さへとシフトします。これは、より大きなモデルが暗記に過度に依存する前に、より複雑な推論タスクを処理できることを示唆しています。
Scylla と臨界複雑性の概念を活用して、LLaMA や Qwen ファミリなどのオープンソース モデルと、Claude や GPT などのクローズソース モデルの両方を含む 28LLM のベンチマークを行い、より堅牢な評価を提供し、LLM の一般化機能のより明確な理解を確立します。
。
要約(オリジナル)
While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold – referred to as critical complexity – where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs’ generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs’ generalization capabilities.
arxiv情報
| 著者 | Zhenting Qi,Hongyin Luo,Xuliang Huang,Zhuokai Zhao,Yibo Jiang,Xiangjun Fan,Himabindu Lakkaraju,James Glass | 
| 発行日 | 2024-10-02 17:25:37+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
