要約
大規模な言語モデル(LLM)は、生成されたコンテンツの安全性を評価するために自動評価者としてますます採用されていますが、この役割におけるそれらの信頼性は不確実なままです。
この研究では、重要な安全性ドメイン全体の11のLLMジャッジモデルの多様なセットを評価し、3つの重要な側面を調べます。繰り返し判断のタスクにおける自己整合性、人間の判断との整合性、および謝罪や冗長なフレージングなどのアーティファクトを入力する可能性。
私たちの調査結果は、LLM審査員のバイアスが、コンテンツソースがより安全である最終的な評決を大幅に歪め、比較評価の妥当性を損なうことができることを明らかにしています。
特に、謝罪の言語アーティファクトだけで、評価者の好みを最大98 \%でゆがめることができます。
期待に反して、より大きなモデルは一貫してより大きな堅牢性を示すものではありませんが、より小さなモデルは特定のアーティファクトに対してより高い抵抗を示すことがあります。
LLM評価者の堅牢性の問題を緩和するために、複数のモデルからの決定を集約するju審ベースの評価を調査します。
このアプローチは堅牢性を向上させ、人間の判断との整合性を高めますが、アーティファクトの感度は最高のju審員構成でも持続します。
これらの結果は、信頼できる安全性評価を確保するために、多様化されたアーティファクト耐性の方法論の緊急の必要性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) are increasingly employed as automated evaluators to assess the safety of generated content, yet their reliability in this role remains uncertain. This study evaluates a diverse set of 11 LLM judge models across critical safety domains, examining three key aspects: self-consistency in repeated judging tasks, alignment with human judgments, and susceptibility to input artifacts such as apologetic or verbose phrasing. Our findings reveal that biases in LLM judges can significantly distort the final verdict on which content source is safer, undermining the validity of comparative evaluations. Notably, apologetic language artifacts alone can skew evaluator preferences by up to 98\%. Contrary to expectations, larger models do not consistently exhibit greater robustness, while smaller models sometimes show higher resistance to specific artifacts. To mitigate LLM evaluator robustness issues, we investigate jury-based evaluations aggregating decisions from multiple models. Although this approach both improves robustness and enhances alignment to human judgements, artifact sensitivity persists even with the best jury configurations. These results highlight the urgent need for diversified, artifact-resistant methodologies to ensure reliable safety assessments.
arxiv情報
著者 | Hongyu Chen,Seraphina Goldfarb-Tarrant |
発行日 | 2025-03-12 12:49:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google