Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

要約

GPT-4 などの独自の LM は、さまざまな LM からの応答の品質を評価するためによく使用されます。
ただし、透明性、制御性、手頃な価格などの懸念により、評価に特化したオープンソース LM の開発が強く動機付けられています。
一方、既存のオープン評価 LM には重大な欠点があります。1) 人間が割り当てたスコアから大幅に乖離したスコアを発行します。2) 最も一般的な 2 つの評価形式である直接評価とペアごとのランキングの両方を実行する柔軟性に欠けています。

さらに、カスタムの評価基準に基づいて評価する能力はなく、代わりに有用性や無害性などの一般的な属性に焦点を当てます。
これらの問題に対処するために、人間と GPT-4 の判断を厳密に反映する、前任者よりも強力な評価ツール LM である Prometheus 2 を導入します。
さらに、直接評価と、ユーザー定義の評価基準でグループ化されたペアごとのランキング形式の両方を処理できます。
4 つの直接評価ベンチマークと 4 つのペアワイズ ランキング ベンチマークで、Prometheus 2 は、テストされたすべてのオープン評価 LM の中で、人間および独自の LM 審査員との相関性と一致度が最も高くなりました。
私たちのモデル、コード、データはすべて https://github.com/prometheus-eval/prometheus-eval で公開されています。

要約(オリジナル)

Proprietary LMs such as GPT-4 are often employed to assess the quality of responses from various LMs. However, concerns including transparency, controllability, and affordability strongly motivate the development of open-source LMs specialized in evaluations. On the other hand, existing open evaluator LMs exhibit critical shortcomings: 1) they issue scores that significantly diverge from those assigned by humans, and 2) they lack the flexibility to perform both direct assessment and pairwise ranking, the two most prevalent forms of assessment. Additionally, they do not possess the ability to evaluate based on custom evaluation criteria, focusing instead on general attributes like helpfulness and harmlessness. To address these issues, we introduce Prometheus 2, a more powerful evaluator LM than its predecessor that closely mirrors human and GPT-4 judgements. Moreover, it is capable of processing both direct assessment and pair-wise ranking formats grouped with a user-defined evaluation criteria. On four direct assessment benchmarks and four pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and agreement with humans and proprietary LM judges among all tested open evaluator LMs. Our models, code, and data are all publicly available at https://github.com/prometheus-eval/prometheus-eval.

arxiv情報

著者 Seungone Kim,Juyoung Suk,Shayne Longpre,Bill Yuchen Lin,Jamin Shin,Sean Welleck,Graham Neubig,Moontae Lee,Kyungjae Lee,Minjoon Seo
発行日 2024-05-02 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク