要約
LLM-as-a-Judgeは、様々なベンチマークにおける評価手法として広く利用され、モデル学習における教師付き報酬として役立ってきた。しかし、多くの領域でLLM-as-a-Judgeが優れているにもかかわらず、潜在的な問題は十分に調査されておらず、LLM-as-a-Judgeの信頼性と有用性の範囲を損なっている。そこで、我々は12の主要な潜在的なバイアスを特定し、自動化されたバイアスを定量化するフレームワーク-CALM-を提案する。我々の実験は、複数の一般的な言語モデルを対象としており、その結果、先進的なモデルが総合的な性能は高く評価できるものの、特定のタスクでは重大なバイアスが残っていることが示された。実証結果は、LLM-as-a-Judgeの信頼性には改善の余地が残されていることを示唆している。さらに、これらのバイアスの明示的・暗黙的な影響についても議論し、LLM-as-a-Judgeの信頼性の高い適用のためのいくつかの提案を行う。我々の研究は、関係者がこれらの問題に取り組む必要性を強調し、LLM-as-a-Judgeの適用に注意を払うよう利用者に喚起する。
要約(オリジナル)
LLM-as-a-Judge has been widely utilized as an evaluation method in various benchmarks and served as supervised rewards in model training. However, despite their excellence in many domains, potential issues are under-explored, undermining their reliability and the scope of their utility. Therefore, we identify 12 key potential biases and propose a new automated bias quantification framework-CALM-which systematically quantifies and analyzes each type of bias in LLM-as-a-Judge by using automated and principle-guided modification. Our experiments cover multiple popular language models, and the results indicate that while advanced models have achieved commendable overall performance, significant biases persist in certain specific tasks. Empirical results suggest that there remains room for improvement in the reliability of LLM-as-a-Judge. Moreover, we also discuss the explicit and implicit influence of these biases and give some suggestions for the reliable application of LLM-as-a-Judge. Our work highlights the need for stakeholders to address these issues and remind users to exercise caution in LLM-as-a-Judge applications.
arxiv情報
著者 | Jiayi Ye,Yanbo Wang,Yue Huang,Dongping Chen,Qihui Zhang,Nuno Moniz,Tian Gao,Werner Geyer,Chao Huang,Pin-Yu Chen,Nitesh V Chawla,Xiangliang Zhang |
発行日 | 2024-10-04 03:57:47+00:00 |
arxivサイト | arxiv_id(pdf) |