Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study

要約

大規模言語モデル (LLM) のパフォーマンスを評価するための評価者として LLM を利用することが注目を集めています。
ただし、この種の評価アプローチは LLM 内の潜在的なバイアスの影響を受けるため、LLM の評価結果の精度と信頼性について懸念が生じます。
この問題に対処するために、LLM 評価者が潜在的なバイアスを軽減するのに役立つ 2 つのメニーショット インコンテキスト学習 (ICL) プロンプト テンプレート、すなわち参照ありのメニーショット (MSwR) と参照なしのメニーショット (MSoR) を提案および検討します。
具体的には、前者はモデルが生成した評価根拠を参照として含むコンテキスト内の例を利用しますが、後者にはこれらの参照は含まれていません。
これらのプロンプト設計を使用して、コンテキスト内の例の数を増やすことが評価結果の一貫性と品質に及ぼす影響を調査します。
実験結果は、GPT-4o などの高度な LLM は、ゼロ ショットや少数ショットの場合よりも多ショットの場合の方が優れたパフォーマンスを発揮することを示しています。
さらに、マルチショット領域で GPT-4o を評価器として使用する場合、プロンプト テンプレートとして MSwR を採用すると、MSoR よりも優れたパフォーマンスが得られます。

要約(オリジナル)

Utilizing Large Language Models (LLMs) as evaluators to assess the performance of LLMs has garnered attention. However, this kind of evaluation approach is affected by potential biases within LLMs, raising concerns about the accuracy and reliability of the evaluation results of LLMs. To address this problem, we propose and study two many-shot In-Context Learning (ICL) prompt templates to help LLM evaluators mitigate potential biases: Many-Shot with Reference (MSwR) and Many-Shot without Reference (MSoR). Specifically, the former utilizes in-context examples with model-generated evaluation rationales as references, while the latter does not include these references. Using these prompt designs, we investigate the impact of increasing the number of in-context examples on the consistency and quality of the evaluation results. Experimental results show that advanced LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot and few-shot regimes. Furthermore, when using GPT-4o as an evaluator in the many-shot regime, adopting MSwR as the prompt template performs better than MSoR.

arxiv情報

著者 Mingyang Song,Mao Zheng,Xuan Luo,Yue Pan
発行日 2025-01-10 13:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク