要約
ペアごとの好みの判断による、生成された言語の人間による評価が普及しています。
ただし、モデル ペアの世代が非常に類似している場合や、確率的デコードの結果、世代に大きなばらつきが生じる場合など、一般的なシナリオでは、一貫性のない優先度評価が発生します。
私たちは、テスト インスタンスがペアごとの選好評価にどの程度適しているかを推定するメタ評価尺度である分離性を導入することで、これらの課題に対処します。
候補テスト インスタンスの場合、分離可能性はモデルのペアから複数の世代をサンプリングし、2 つの世代セットがどの程度区別できるかを測定します。
私たちの実験では、分離可能性の値が高いインスタンスでは、人間の評価者と自動評価者の両方からより一貫した優先評価が得られることが示されています。
さらに、分離可能性の分布により、モデルを比較する際にどのテスト ベンチマークがより価値があるかを洞察することができます。
最後に、ELO 評価に分離可能性を組み込み、LLM を確実にランク付けするために各テスト インスタンスがどの程度適しているかを考慮します。
全体として、分離可能性は、人間による評価者と自動評価者の両方による LLM の一貫した効率的かつ堅牢な選好評価に影響を与えます。
要約(オリジナル)
Human evaluation of generated language through pairwise preference judgments is pervasive. However, under common scenarios, such as when generations from a model pair are very similar, or when stochastic decoding results in large variations in generations, it results in inconsistent preference ratings. We address these challenges by introducing a meta-evaluation measure, separability, which estimates how suitable a test instance is for pairwise preference evaluation. For a candidate test instance, separability samples multiple generations from a pair of models, and measures how distinguishable the two sets of generations are. Our experiments show that instances with high separability values yield more consistent preference ratings from both human- and auto-raters. Further, the distribution of separability allows insights into which test benchmarks are more valuable for comparing models. Finally, we incorporate separability into ELO ratings, accounting for how suitable each test instance might be for reliably ranking LLMs. Overall, separability has implications for consistent, efficient and robust preference evaluation of LLMs with both human- and auto-raters.
arxiv情報
著者 | Sayan Ghosh,Tejas Srinivasan,Swabha Swayamdipta |
発行日 | 2024-10-29 17:29:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google