要約
大規模な言語モデル(LLMS)の急速な発展は、自然言語処理の景観を変えました。
LLMを適切に評価することは、潜在能力を理解し、安全などの懸念に対処するために重要です。
ただし、LLM評価にはさまざまな要因が直面しており、その中で、評価の信頼性を損なう重要な問題として汚染が際立っています。
この作業では、この課題に対処するために汚染抵抗の概念を紹介します。
シフトが1の場合、シフトが1の場合は「bc」から「ab」から「ab」)に基づいたベンチマークを提案します。
さまざまな設定で広く使用されているLLMでこのベンチマークをテストします。これらのモデルは、汚染が制御されるとこのベンチマークに苦労していることがわかります。
私たちの調査結果は、現在のLLMの問題を明らかにし、それらの真の能力に関する重要な質問を提起します。
私たちの仕事は、汚染耐性ベンチマークの開発に貢献し、より厳格なLLM評価を可能にし、LLMの真の機能と制限に関する洞察を提供します。
要約(オリジナル)
The rapid development of large language models (LLMs) has transformed the landscape of natural language processing. Evaluating LLMs properly is crucial for understanding their potential and addressing concerns such as safety. However, LLM evaluation is confronted by various factors, among which contamination stands out as a key issue that undermines the reliability of evaluations. In this work, we introduce the concept of contamination resistance to address this challenge. We propose a benchmark based on Caesar ciphers (e.g., ‘ab’ to ‘bc’ when the shift is 1), which, despite its simplicity, is an excellent example of a contamination resistant benchmark. We test this benchmark on widely used LLMs under various settings, and we find that these models struggle with this benchmark when contamination is controlled. Our findings reveal issues in current LLMs and raise important questions regarding their true capabilities. Our work contributes to the development of contamination resistant benchmarks, enabling more rigorous LLM evaluation and offering insights into the true capabilities and limitations of LLMs.
arxiv情報
著者 | Rahmatullah Musawi,Sheng Lu |
発行日 | 2025-05-13 09:35:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google