Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

要約

最近、長い形式の応答の評価ツールとして強力な独自の大規模言語モデル (LLM) (GPT-4 など) を使用することが事実上の標準になっています。
ただし、大規模な評価タスクとカスタム基準 (子供が読みやすいなど) を考慮している実務者にとって、独自の LLM を評価者として使用することは、クローズドソースの性質、管理されていないバージョン管理、法外なコストのため信頼性が低くなります。
この研究では、適切な参考資料 (参考回答、スコア ルーブリック) が付属している場合に GPT-4 の評価機能と同等の完全にオープンソースの LLM である Prometheus を提案します。
まず、フィードバック コレクションを構築します。これは、1,000 個のきめ細かいスコア ルーブリック、20,000 個の指示、GPT-4 によって生成された 100,000 個の応答と言語フィードバックで構成される新しいデータセットです。
フィードバック コレクションを使用して、ユーザーが提供するカスタマイズされたスコア ルーブリックに基づいて特定の長文テキストを評価できる 13B 評価 LLM である Prometheus をトレーニングします。
実験結果によると、Prometheus は 45 のカスタマイズされたスコア ルーブリックで評価した場合、人間の評価者とのピアソン相関スコアが 0.897 で、GPT-4 (0.882) と同等であり、ChatGPT (0.392) を大幅に上回っています。
さらに、4 つのベンチマーク (MT ベンチ、ビクーニャ ベンチ、フィードバック ベンチ、Flask Eval) にわたる 1222 のカスタマイズされたスコア ルーブリックを使用して GPT-4 との相関関係を測定すると、同様の傾向が示され、評価者 LLM としての Prometheus の能力が強化されます。
最後に、Prometheus は、人間の選好データセットで明示的にトレーニングされたオープンソースの報酬モデルと比較して、2 つの人間の選好ベンチマーク (HHH アライメントと MT ベンチ人間判断) で最高の精度を達成しており、普遍的な報酬モデルとしての可能性を強調しています。
コード、データセット、モデルを https://github.com/kaistAI/Prometheus でオープンソースにしています。

要約(オリジナル)

Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4’s evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus’s capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://github.com/kaistAI/Prometheus.

arxiv情報

著者 Seungone Kim,Jamin Shin,Yejin Cho,Joel Jang,Shayne Longpre,Hwaran Lee,Sangdoo Yun,Seongjin Shin,Sungdong Kim,James Thorne,Minjoon Seo
発行日 2023-10-12 16:50:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク