Correlated Errors in Large Language Models

要約

トレーニングデータ、アーキテクチャ、およびプロバイダーの多様性は、LLMSの均一性を緩和すると想定されています。
ただし、異なるLLMが有意義に異なるかどうかについての経験的証拠はありません。
2つの人気のあるリーダーボードと履歴書を画面化するタスクを使用して、全体で350を超えるLLMSで大規模な経験的評価を実施しています。
モデルエラーにかなりの相関関係があります。1つのリーダーボードデータセットでは、モデルは両方のモデルがエラーする時間の60%に同意します。
共有アーキテクチャやプロバイダーなど、モデルの相関を促進する要因を特定します。
ただし、重要なことに、より大きく、より正確なモデルには、明確なアーキテクチャやプロバイダーがあっても、エラーが高度に相関しています。
最後に、LLM-As-Judgeの評価と雇用の2つの下流タスクにおける相関の効果を示します。

要約(オリジナル)

Diversity in training data, architecture, and providers is assumed to mitigate homogeneity in LLMs. However, we lack empirical evidence on whether different LLMs differ meaningfully. We conduct a large-scale empirical evaluation on over 350 LLMs overall, using two popular leaderboards and a resume-screening task. We find substantial correlation in model errors — on one leaderboard dataset, models agree 60% of the time when both models err. We identify factors driving model correlation, including shared architectures and providers. Crucially, however, larger and more accurate models have highly correlated errors, even with distinct architectures and providers. Finally, we show the effects of correlation in two downstream tasks: LLM-as-judge evaluation and hiring — the latter reflecting theoretical predictions regarding algorithmic monoculture.

arxiv情報

著者 Elliot Kim,Avi Garg,Kenny Peng,Nikhil Garg
発行日 2025-06-09 17:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, stat.ML パーマリンク