CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation

要約

自然言語処理 (NLP) コミュニティは、生成されたテキストの品質を評価する批評家として機能する GPT-4 などの大規模言語モデル (LLM) を作成し始めて以来、そのほとんどは特定の規模の批評生成モデルのみをトレーニングしています。
特定のデータセットについて。
スケーリング特性など、LLM ベースの評価モデルの重要な要素に関する包括的な調査が不足しているため、これらのモデルが実際のシナリオで GPT-4 の評価に代わる可能性があるかどうかはまだ決定的ではないと主張します。
本稿では、CritiqueLLMと呼ばれる新しい批評生成モデルを提案します。これには、高品質の参照あり/参照なしの評価データに対する対話ベースのプロンプト手法が含まれています。
実験結果は、私たちのモデルが、特にシステムレベルの相関において GPT-4 に匹敵する評価パフォーマンスを達成でき、困難なリファレンスフリー設定における 8 タスク中 3 タスクにおいて GPT-4 を上回るパフォーマンスを発揮できることを示しています。
私たちは詳細な分析を行って、生成される批評の質におけるモデルの有望なスケーリング特性を示します。
また、生成された批評が、LLM の生成品質を直接改善するためのスケーラブルなフィードバックとして機能することも実証します。

要約(オリジナル)

Since the natural language processing (NLP) community started to make large language models (LLMs), such as GPT-4, act as a critic to evaluate the quality of generated texts, most of them only train a critique generation model of a specific scale on specific datasets. We argue that a comprehensive investigation on the key factor of LLM-based evaluation models, such as scaling properties, is lacking, so that it is still inconclusive whether these models have potential to replace GPT-4’s evaluation in practical scenarios. In this paper, we propose a new critique generation model called CritiqueLLM, which includes a dialogue-based prompting method for high-quality referenced / reference-free evaluation data. Experimental results show that our model can achieve comparable evaluation performance to GPT-4 especially in system-level correlations, and even outperform GPT-4 in 3 out of 8 tasks in a challenging reference-free setting. We conduct detailed analysis to show promising scaling properties of our model in the quality of generated critiques. We also demonstrate that our generated critiques can act as scalable feedback to directly improve the generation quality of LLMs.

arxiv情報

著者 Pei Ke,Bosi Wen,Zhuoer Feng,Xiao Liu,Xuanyu Lei,Jiale Cheng,Shengyuan Wang,Aohan Zeng,Yuxiao Dong,Hongning Wang,Jie Tang,Minlie Huang
発行日 2023-11-30 16:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク