要約
大規模言語モデル (LLM) のパフォーマンスを評価するための判断材料として LLM を活用することが、最近注目を集めています。
それにもかかわらず、このタイプのアプローチは LLM からの潜在的なバイアスを同時に導入し、評価結果の信頼性についての懸念を引き起こします。
この問題を軽減するために、単一回答の採点における GPT-4o-as-a-Judge を支援するために、強化 ICL と教師なし ICL という 2 つのバージョンのメニーショット インコンテキスト プロンプトを提案し、研究しています。
前者はモデルが生成した根拠を含むコンテキスト内の例を使用し、後者はそれを使用しません。
設計されたプロンプトに基づいて、コンテキスト内の例の数をスケールした場合の評価の一致と品質への影響を調査します。
さらに、最初に、ペアごとの比較のための GPT-4o-as-a-Judge のシンボル バイアスを明らかにし、それを軽減するためのシンプルかつ効果的なアプローチを提案します。
実験結果は、GPT-4o などの高度なロングコンテキスト LLM は、ゼロ ショット方式よりもメニー ショット方式の方が優れたパフォーマンスを発揮することを示しています。
一方、実験結果では、シンボル バイアス軽減アプローチの有効性がさらに検証されています。
要約(オリジナル)
Leveraging Large Language Models (LLMs) as judges for evaluating the performance of LLMs has recently garnered attention. Nonetheless, this type of approach concurrently introduces potential biases from LLMs, raising concerns about the reliability of the evaluation results. To mitigate this issue, we propose and study two versions of many-shot in-context prompts, Reinforced and Unsupervised ICL, for helping GPT-4o-as-a-Judge in single answer grading. The former uses in-context examples with model-generated rationales, and the latter without. Based on the designed prompts, we investigate the impact of scaling the number of in-context examples on the agreement and quality of the evaluation. Furthermore, we first reveal the symbol bias in GPT-4o-as-a-Judge for pairwise comparison and then propose a simple yet effective approach to mitigate it. Experimental results show that advanced long-context LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot regime. Meanwhile, the experimental results further verify the effectiveness of the symbol bias mitigation approach.
arxiv情報
著者 | Mingyang Song,Mao Zheng,Xuan Luo |
発行日 | 2024-06-24 16:02:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google