Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates

要約

RLHF や DPO などの調整アプローチは、大規模言語モデル (LLM) を人間の好みに調整するために積極的に研究されています。
最近、GPT-4 のような商用大規模言語モデル (LLM) が、さまざまな LLM アライメント アプローチを評価および比較するために採用されています。
これらのモデルは、驚くほど高速なフィードバックとより低いコストで人間の好みに近似する有望な能力により、人間の評価者の代理として機能します。
この方法論は、LLM-as-a-judge と呼ばれます。
しかし、LLM 審査員の偏見と一貫性のない意思決定に起因して、その信頼性に関する懸念が浮上しています。
これまでの研究では、LLM 審査員の信頼性と人間の好みとの整合性を評価するための堅牢な評価フレームワークの開発が試みられてきました。
ただし、採用されている評価指標には十分な説明能力が欠けていることが多く、LLM の内部矛盾に対処できていないことがよくあります。
さらに、既存の研究では、LLM-as-a-judge 手法を適用する際のさまざまなプロンプト テンプレートの影響が十分に調査されていないため、異なるアライメント アルゴリズム間の比較が矛盾する可能性があります。
この研究では、理論的解釈可能性を向上させた評価指標を定義し、LLM の内部矛盾による信頼性指標を解きほぐすことにより、整合タスク (要約など) に関する LLM ジャッジを体系的に評価します。
私たちは、LLM ジャッジの信頼性と調整を評価、比較、視覚化するフレームワークを開発し、調整タスクのために LLM ジャッジを選択するのに役立つ有益な観察を提供します。
私たちの結果は、プロンプト テンプレートが LLM 審査員のパフォーマンスに大きな影響を及ぼしていること、およびテストされた LLM 審査員と人間の評価者の間の一致レベルが平凡であることを示しています。

要約(オリジナル)

Alignment approaches such as RLHF and DPO are actively investigated to align large language models (LLMs) with human preferences. Commercial large language models (LLMs) like GPT-4 have been recently employed to evaluate and compare different LLM alignment approaches. These models act as surrogates for human evaluators due to their promising abilities to approximate human preferences with remarkably faster feedback and lower costs. This methodology is referred to as LLM-as-a-judge. However, concerns regarding its reliability have emerged, attributed to LLM judges’ biases and inconsistent decision-making. Previous research has sought to develop robust evaluation frameworks for assessing the reliability of LLM judges and their alignment with human preferences. However, the employed evaluation metrics often lack adequate explainability and fail to address the internal inconsistency of LLMs. Additionally, existing studies inadequately explore the impact of various prompt templates when applying LLM-as-a-judge methods, which leads to potentially inconsistent comparisons between different alignment algorithms. In this work, we systematically evaluate LLM judges on alignment tasks (e.g. summarization) by defining evaluation metrics with improved theoretical interpretability and disentangling reliability metrics with LLM internal inconsistency. We develop a framework to evaluate, compare, and visualize the reliability and alignment of LLM judges to provide informative observations that help choose LLM judges for alignment tasks. Our results indicate a significant impact of prompt templates on LLM judge performance, as well as a mediocre alignment level between the tested LLM judges and human evaluators.

arxiv情報

著者 Hui Wei,Shenghua He,Tian Xia,Andy Wong,Jingyang Lin,Mei Han
発行日 2024-08-23 11:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク