LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models

要約

大規模言語モデル (LLM) の現在の開発により、さまざまな自然言語タスクにわたって優れたゼロショット機能が可能になりました。
これらのシステムの興味深い応用例は、自然言語生成 (NLG) の自動評価です。これは、大きな実用的利益をもたらす非常に困難な分野です。
この論文では、ゼロショット NLG 評価のために LLM の創発的な能力を活用するための 2 つのオプション、つまり絶対スコア予測と、候補のペア間の相対比較を使用する比較評価を検討します。
NLG 評価では比較評価は広範に研究されていませんが、人間は多くの場合、それぞれを個別に採点するよりも 2 つの選択肢を比較するほうがより直観的であると考えることがわかります。
この研究では、絶対評価と比較したパフォーマンスなど、複数の観点から比較評価を検討します。
プロンプト内の位置の偏り。
比較回数の観点から効率的なランキングを作成します。
LLM 比較評価が NLG 評価に対するシンプルで一般的かつ効果的なアプローチであることを説明します。
FlanT5 や Llama2-chat などの中規模のオープンソース LLM の場合、比較評価はプロンプト スコアリングよりも優れており、多くの場合、最先端の方法と競合するパフォーマンスを達成できます。
さらに、ペアごとの比較を行うときに LLM が強い位置バイアスを示すことが多いことを実証し、パフォーマンスをさらに向上できるバイアス解除方法を提案します。

要約(オリジナル)

Current developments in large language models (LLMs) have enabled impressive zero-shot capabilities across various natural language tasks. An interesting application of these systems is in the automated assessment of natural language generation (NLG), a highly challenging area with great practical benefit. In this paper, we explore two options for exploiting the emergent abilities of LLMs for zero-shot NLG assessment: absolute score prediction, and comparative assessment which uses relative comparisons between pairs of candidates. Though comparative assessment has not been extensively studied in NLG assessment, we note that humans often find it more intuitive to compare two options rather than scoring each one independently. This work examines comparative assessment from multiple perspectives: performance compared to absolute grading; positional biases in the prompt; and efficient ranking in terms of the number of comparisons. We illustrate that LLM comparative assessment is a simple, general and effective approach for NLG assessment. For moderate-sized open-source LLMs, such as FlanT5 and Llama2-chat, comparative assessment is superior to prompt scoring, and in many cases can achieve performance competitive with state-of-the-art methods. Additionally, we demonstrate that LLMs often exhibit strong positional biases when making pairwise comparisons, and we propose debiasing methods that can further improve performance.

arxiv情報

著者 Adian Liusie,Potsawee Manakul,Mark J. F. Gales
発行日 2024-02-06 17:05:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク