PRE: A Peer Review Based Large Language Model Evaluator

要約

大規模言語モデル(LLM)の優れた性能は、学術界や産業界から大きな注目を集めている。LLMをどのように構築し訓練するかということに加え、LLMの能力をどのように効果的に評価し比較するかということも、重要でありながら困難な問題として認識されている。既存のパラダイムは、人間のアノテーターかモデルベースの評価者のどちらかに依存して、異なるタスクに対するLLMの性能を評価している。しかし、これらのパラダイムは、高コスト、低い一般化可能性、そして、実際には固有のバイアスに悩まされることが多く、LLMの持続的な発展を長期的にサポートすることができない。このような問題に対処するため、学術出版プロセスで広く利用されている査読システムにヒントを得て、査読プロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。具体的には、特定のタスクの評価のために、まず小規模な資格試験を構築し、いくつかの強力なLLMから「査読者」を選出する。次に、異なる候補LLM、すなわち被評価者が書いた「提出物」を実際に評価するために、査読者LLMを使って提出物を評価または比較します。最終的な評価者LLMのランキングは、すべてのレビュアーから提供された結果に基づいて生成される。我々は、GPT-4を含む11のLLMを用いて、テキスト要約タスクに関する広範な実験を行った。その結果、単一のLLMを用いた評価には偏りがあることが示された。また、我々のPREモデルは全てのベースラインを凌駕し、ピアレビュー機構の有効性を示した。

要約(オリジナル)

The impressive performance of large language models (LLMs) has attracted considerable attention from the academic and industrial communities. Besides how to construct and train LLMs, how to effectively evaluate and compare the capacity of LLMs has also been well recognized as an important yet difficult problem. Existing paradigms rely on either human annotators or model-based evaluators to evaluate the performance of LLMs on different tasks. However, these paradigms often suffer from high cost, low generalizability, and inherited biases in practice, which make them incapable of supporting the sustainable development of LLMs in long term. In order to address these issues, inspired by the peer review systems widely used in academic publication process, we propose a novel framework that can automatically evaluate LLMs through a peer-review process. Specifically, for the evaluation of a specific task, we first construct a small qualification exam to select ‘reviewers’ from a couple of powerful LLMs. Then, to actually evaluate the ‘submissions’ written by different candidate LLMs, i.e., the evaluatees, we use the reviewer LLMs to rate or compare the submissions. The final ranking of evaluatee LLMs is generated based on the results provided by all reviewers. We conducted extensive experiments on text summarization tasks with eleven LLMs including GPT-4. The results demonstrate the existence of biasness when evaluating using a single LLM. Also, our PRE model outperforms all the baselines, illustrating the effectiveness of the peer review mechanism.

arxiv情報

著者 Zhumin Chu,Qingyao Ai,Yiteng Tu,Haitao Li,Yiqun Liu
発行日 2024-06-03 11:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク