Large language models could be rote learners

要約

複数選択の質問(MCQ)ベンチマークは、大規模な言語モデル(LLM)の評価に広く使用されていますが、その信頼性はベンチマークの汚染によって損なわれています。
この研究では、汚染を学習の固有の側面として再構成し、LLM評価における表面的な記憶から本物の能力の獲得を解き放つよう努めています。
第一に、さまざまな記憶条件下でモデルのパフォーマンスを分析することにより、直感に反する傾向を明らかにします。LLMは、記憶されていないMCQよりも記憶されたMCQよりも悪化し、2つの異なる学習現象の共存、つまり暗記と本物の能力学習を示しています。
それらを解くために、MCQを代替のTrinity形式に再フォーマルする新しい評価フレームワークであるTrinevalを提案し、知識評価を維持しながら暗記を減らします。
実験は、再生におけるTrinevalの有効性を検証し、その評価は、一般的なLLMが知識ポイントの20.5%(平均してMMLU)によって記憶する可能性があることを明らかにしています。

要約(オリジナル)

Multiple-choice question (MCQ) benchmarks are widely used for evaluating Large Language Models (LLMs), yet their reliability is undermined by benchmark contamination. In this study, we reframe contamination as an inherent aspect of learning and seek to disentangle genuine capability acquisition from superficial memorization in LLM evaluation. First, by analyzing model performance under different memorization conditions, we uncover a counterintuitive trend: LLMs perform worse on memorized MCQs than on non-memorized ones, indicating the coexistence of two distinct learning phenomena, i.e., rote memorization and genuine capability learning. To disentangle them, we propose TrinEval, a novel evaluation framework that reformulates MCQs into an alternative trinity format, reducing memorization while preserving knowledge assessment. Experiments validate TrinEval’s effectiveness in reformulation, and its evaluation reveals that common LLMs may memorize by rote 20.5% of knowledge points (in MMLU on average).

arxiv情報

著者 Yuyang Xu,Renjun Hu,Haochao Ying,Jian Wu,Xing Shi,Wei Lin
発行日 2025-04-11 07:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク