Resurrecting saturated LLM benchmarks with adversarial encoding

要約

最近の研究は、ベンチマークの質問の小さな変化がLLMSの推論とリコールを減らすことができることを示しました。
このような変更は、WMDP-Bio、GPQA、およびMMLUバリアントの3つのベンチマークに、質問と回答オプションのペアリングのペアリングとその他の変更を検討します。
より有能なモデルの場合、これらは予測可能にパフォーマンスを低下させ、基本的にベンチマークのパフォーマンスの上限を高め、再び不飽和にします。
このアプローチでは、古いベンチマークを復活させることができることをお勧めします。

要約(オリジナル)

Recent work showed that small changes in benchmark questions can reduce LLMs’ reasoning and recall. We explore two such changes: pairing questions and adding more answer options, on three benchmarks: WMDP-bio, GPQA, and MMLU variants. We find that for more capable models, these predictably reduce performance, essentially heightening the performance ceiling of a benchmark and unsaturating it again. We suggest this approach can resurrect old benchmarks.

arxiv情報

著者 Igor Ivanov,Dmitrii Volkov
発行日 2025-02-10 18:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク