PredictaBoard: Benchmarking LLM Score Predictability

要約

印象的なスキルを持っているにもかかわらず、大規模な言語モデル(LLM)は予測不可能に失敗することが多く、基本的な常識推論タスクでさえ一貫性のない成功を示しています。
この予測不可能性は、信頼できる「セーフゾーン」内で特定して動作することがリスクを軽減するために不可欠であるため、安全な展開を確保することに大きな課題をもたらします。
これに対処するために、既存のデータセットから特定のタスクインスタンス(つまり、プロンプト)でLLMエラーを予測するスコア予測因子(評価者と呼ばれる)の能力を評価するために設計された新しい共同ベンチマークフレームワークであるPredictAboardを提示します。
PredictAboardは、異なる許容誤差で拒否率を考慮することにより、LLMと評価者のペアを評価します。
そのため、Predictaboardは、より高い平均パフォーマンスだけでなく、より良い評価者の開発とLLMをより予測可能にするための研究を刺激します。
ベースライン評価者と最先端のLLMを使用して、例示的な実験を実施します。
PredictAboardは、パフォーマンスとともに予測可能性を評価する重要なニーズを強調し、エラーが最小化されているだけでなく、予想され、効果的に緩和されるより安全なAIシステムへの道を開きます。
ベンチマークのコードは、https://github.com/kinds-of-intelligence-cfi/predictaboardにあります

要約(オリジナル)

Despite possessing impressive skills, Large Language Models (LLMs) often fail unpredictably, demonstrating inconsistent success in even basic common sense reasoning tasks. This unpredictability poses a significant challenge to ensuring their safe deployment, as identifying and operating within a reliable ‘safe zone’ is essential for mitigating risks. To address this, we present PredictaBoard, a novel collaborative benchmarking framework designed to evaluate the ability of score predictors (referred to as assessors) to anticipate LLM errors on specific task instances (i.e., prompts) from existing datasets. PredictaBoard evaluates pairs of LLMs and assessors by considering the rejection rate at different tolerance errors. As such, PredictaBoard stimulates research into developing better assessors and making LLMs more predictable, not only with a higher average performance. We conduct illustrative experiments using baseline assessors and state-of-the-art LLMs. PredictaBoard highlights the critical need to evaluate predictability alongside performance, paving the way for safer AI systems where errors are not only minimised but also anticipated and effectively mitigated. Code for our benchmark can be found at https://github.com/Kinds-of-Intelligence-CFI/PredictaBoard

arxiv情報

著者 Lorenzo Pacchiardi,Konstantinos Voudouris,Ben Slater,Fernando Martínez-Plumed,José Hernández-Orallo,Lexin Zhou,Wout Schellaert
発行日 2025-06-17 14:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, stat.ML パーマリンク