Quantifying Generalization Complexity for Large Language Models

要約

大規模言語モデル(LLM)は、複雑なクエリを理解し、高度なタスクを実行する上で卓越した能力を示しているが、その汎化能力はしばしば記憶と深く関わっており、より正確な評価が必要である。この課題を解決するために、LLMの汎化能力を定量的に測定する動的評価フレームワークScyllaを紹介する。Scyllaは、5つの複雑度に渡る20のタスクを通して、分布内(ID)と分布外(OOD)の両方のデータに対するモデルのパフォーマンスを評価することで、汎化を記憶から分離する。広範な実験を通して、タスクの複雑さと、IDデータとOODデータ間のパフォーマンスギャップとの間に非単調な関係があることを明らかにした。具体的には、この現象は、LLMの汎化能力の上限を示す、非汎化挙動への依存がピークに達する臨界閾値(臨界複雑度と呼ばれる)を明らかにする。モデルサイズが大きくなるにつれて、臨界複雑度はタスクの複雑さのレベルが高くなる方向にシフトし、より大きなモデルは、記憶に過度に依存する前に、より複雑な推論タスクを処理できることが示唆される。Scyllaと臨界複雑度の概念を活用し、LLaMAやQwenファミリーのようなオープンソースモデルと、ClaudeやGPTのようなクローズソースモデルの両方を含む28のLLMをベンチマークし、よりロバストな評価を提供し、LLMの汎化能力をより明確に理解する。

要約(オリジナル)

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold – referred to as critical complexity – where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs’ generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs’ generalization capabilities.

arxiv情報

著者 Zhenting Qi,Hongyin Luo,Xuliang Huang,Zhuokai Zhao,Yibo Jiang,Xiangjun Fan,Himabindu Lakkaraju,James Glass
発行日 2024-10-03 15:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク