要約
大規模な言語モデル(LLM)の推論能力を評価することは、評価ベンチマークのデータ露出により、過大評価の影響を受けやすくなります。
モデルのパフォーマンス推定における記憶の効果を軽減する言語的推論問題を生み出すためのフレームワークを紹介し、このフレームワークを適用して、言語的推論のための挑戦的なベンチマークであるLingoly-Tooを開発します。
正書法のテンプレートを開発することにより、実際の言語のライティングシステムを動的に難読化して、多大な違いを生み出します。
これらのバリエーションは、モデルトレーニングデータに表示される特定の問題インスタンスの可能性を減らしながら、各ソリューションに必要な推論手順を維持します。
私たちの実験は、Claud 3.7 Sonnet、O1-Preview、Deepseek R1を含むフロンティアモデルが高度な推論に苦しんでいることを示しています。
また、私たちの分析は、LLMが同じ問題の順列全体で精度の顕著な分散を示すことを示しており、元の正書法に表示される質問で平均的にパフォーマンスを発揮します。
私たちの調査結果は、LLMSにおける応答生成の不透明な性質を強調し、以前のデータ曝露がフロンティアモデルの推論能力の推定に貢献しているという証拠を提供します。
要約(オリジナル)
Assessing the reasoning capabilities of large language models (LLMs) is susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerousquestion variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including Claud 3.7 Sonnet, o1-preview and DeepSeek R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to over estimating the reasoning capabilities of frontier models.
arxiv情報
著者 | Jude Khouja,Karolina Korgul,Simi Hellsten,Lingyi Yang,Vlad Neacsu,Harry Mayne,Ryan Kearns,Andrew Bean,Adam Mahdi |
発行日 | 2025-03-07 09:31:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google