JudgeLM: Fine-tuned Large Language Models are Scalable Judges

要約

既存のベンチマークやメトリクスでは包括的に測定できないため、オープンエンドのシナリオで大規模言語モデル (LLM) を評価することは困難です。
この問題に対処するために、オープンエンドのベンチマークで LLM を効率的かつ効果的に評価するために、LLM をスケーラブルなジャッジ (JudgeLM) として微調整することを提案します。
我々はまず、優秀な裁判官を微調整するためのタスクシード、LLMによって生成された回答、GPT-4によって生成された判断を含む包括的で大規模な高品質のデータセットと、裁判官を評価するための新しいベンチマークを提案します。
私たちは、7B、13B、33B パラメーターのさまざまなスケールで JudgeLM をトレーニングし、その機能と動作の体系的な分析を実施します。
次に、審査員として LLM を微調整する際の主要なバイアスを分析し、それらをポジション バイアス、知識バイアス、フォーマット バイアスとみなします。
これらの問題に対処するために、JudgeLM はスワップ オーグメンテーション、リファレンス サポート、リファレンス ドロップなどの一連のテクニックを導入し、ジャッジのパフォーマンスを明らかに向上させます。
JudgeLM は、既存の PandaLM ベンチマークと私たちが提案する新しいベンチマークの両方で最先端のジャッジ パフォーマンスを実現します。
当社の JudgeLM は効率的で、JudgeLM-7B は 8 つの A100 GPU で 5K サンプルを判定するのにわずか 3 分しかかかりません。
JudgeLMは教師裁判官との高い一致度を獲得しており、人間同士の一致をも超える90%を超える一致を実現しています。
JudgeLM は、単一の回答、マルチモーダル モデル、複数の回答、およびマルチターン チャットの審査員としての拡張機能も示します。

要約(オリジナル)

Evaluating Large Language Models (LLMs) in open-ended scenarios is challenging because existing benchmarks and metrics can not measure them comprehensively. To address this problem, we propose to fine-tune LLMs as scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in open-ended benchmarks. We first propose a comprehensive, large-scale, high-quality dataset containing task seeds, LLMs-generated answers, and GPT-4-generated judgments for fine-tuning high-performance judges, as well as a new benchmark for evaluating the judges. We train JudgeLM at different scales from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its capabilities and behaviors. We then analyze the key biases in fine-tuning LLM as a judge and consider them as position bias, knowledge bias, and format bias. To address these issues, JudgeLM introduces a bag of techniques including swap augmentation, reference support, and reference drop, which clearly enhance the judge’s performance. JudgeLM obtains the state-of-the-art judge performance on both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8 A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM also demonstrates extended capabilities in being judges of the single answer, multimodal models, multiple answers, and multi-turn chat.

arxiv情報

著者 Lianghui Zhu,Xinggang Wang,Xinlong Wang
発行日 2023-10-26 17:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク