An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4

要約

最近、大規模言語モデル (LLM) を利用して他の LLM の品質を評価する傾向が高まっています。
多くの研究では、独自の密源モデル、特に GPT-4 を評価者として採用しています。
あるいは、他の作品では、評価者としてオープンソース LLM に基づいて微調整された判定モデルが使用されています。
微調整された裁判官モデルは GPT-4 と同等の評価能力を達成すると主張されていますが、この研究では、裁判官モデルの実証研究を行います。
私たちの調査結果は、微調整されたジャッジモデルはドメイン内テストセットで GPT-4 を上回る高いパフォーマンスを達成するものの、一般化性、公平性、側面固有の評価、スケーラビリティなどのいくつかの側面では GPT-4 を下回るパフォーマンスを示しています。
また、微調整された判定モデルは本質的にタスク固有の分類子として機能し、その結果、制限が課されることも明らかにします。
最後に、GPT-4 を活用して制限を補い、微調整されたジャッジを改善する統合手法を紹介します。
実験結果は、私たちの方法がわずか 50% の API 費用で GPT-4 と同等の精度を達成できることを示しています。

要約(オリジナル)

Recently, there has been a growing trend of utilizing Large Language Model (LLM) to evaluate the quality of other LLMs. Many studies have employed proprietary close-sourced models, especially GPT-4, as the evaluator. Alternatively, other works have fine-tuned judge models based on open-source LLMs as the evaluator. While the fine-tuned judge models are claimed to achieve comparable evaluation capability with GPT-4, in this work, we conduct an empirical study of judge models. Our findings indicate that although the fine-tuned judge models achieve high performance on in-domain test sets, even surpassing GPT-4, they underperform GPT-4 across several dimensions, including generalizability, fairness, aspect-specific evaluation, and scalability. We also reveal that the fine-tuned judge model inherently operates as a task-specific classifier, consequently imposing the limitations. Finally, we introduce a integrated method, leveraging GPT-4 to compensate for the limitations and improve the fine-tuned judges. Experiment results show our method achieves accuracy on par with GPT-4 with only 50% of the API expense.

arxiv情報

著者 Hui Huang,Yingqi Qu,Xingyuan Bu,Hongli Zhou,Jing Liu,Muyun Yang,Bing Xu,Tiejun Zhao
発行日 2024-11-05 09:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク