Wider and Deeper LLM Networks are Fairer LLM Evaluators

要約

LLMによって生成された応答の質を測定することは、特に応答が人間の嗜好と一致しているかどうかを評価することになると、困難な課題である。新しいアプローチでは、LLMそのものを使って評価を行い、単層の狭いLLMネットワークと同様に、複数の独立した評価によって結果を安定させる。このネットワークは固定数のニューロンで構成され、各ニューロンは同じLLMである。本論文では、ディープニューラルネットワークに関する広範な研究を活用し、より深くより広いネットワークが、より公平な評価につながるかどうかを探る。具体的には、ニューラルネットワークの異なるニューロンは異なる概念の検出を担当するという観察に触発され、まず各評価サンプルに対して可能な限り多くのニューロンの役割を適応的に生成する。各視点は第1層の特定のLLMニューロンの役割に対応する。各層は前の層のすべてのニューロンから表現を受け取り、局所的に学習された評価情報を統合して、より包括的な評価結果を得る。興味深いことに、このネットワーク設計は学術論文の審査プロセスに似ている。本手法の有効性を検証するため、15タスク、8能力、2,553サンプルからなる、LLM評価者向けの最大かつ多様な英語評価ベンチマークLLMEval$^2$を構築した。実験結果は、2レイヤー(1ラウンドのディスカッション)を持つより広いネットワーク(多くのレビュアーを含む)が、カッパ相関係数を0.28から0.34に改善し、最高のパフォーマンスを示すことを示している。また、中国のLLMの評価を支援するためにWideDeepを活用し、評価時間を4.6倍に早め、60%のコスト削減を実現した。WideDeepは、人間の間で93%という驚異的な一致度を達成しています。

要約(オリジナル)

Measuring the quality of responses generated by LLMs is a challenging task, particularly when it comes to evaluating whether the response is aligned with human preference. A novel approach involves using the LLM itself to make evaluation and stabilizing the results through multiple independent evaluations, similar to a single-layer narrow LLM network. This network consists of a fixed number of neurons, with each neuron being the same LLM. In this paper, we draw upon the extensive research on deep neural networks to explore whether deeper and wider networks can lead to fairer evaluations. Specifically, inspired by the observation that different neurons in a neural network are responsible for detecting different concepts, we first adaptively generate as many neuron roles as possible for each evaluation sample. Each perspective corresponds to the role of a specific LLM neuron in the first layer. In subsequent layers, we follow the idea that higher layers in deep networks are responsible for more comprehensive features, each layer receives representations from all neurons in the previous layer, integrating the locally learned evaluation information to obtain a more comprehensive evaluation result. Interestingly, this network design resembles the process of academic paper reviewing. To validate the effectiveness of our method, we construct the largest and most diverse English evaluation benchmark LLMEval$^2$ for LLM evaluators, comprising 15 tasks, 8 abilities, and 2,553 samples. Experimental results demonstrate that a wider network (involving many reviewers) with 2 layers (one round of discussion) performs the best, improving kappa correlation coefficient from 0.28 to 0.34. We also leverage WideDeep to aid in the assessment of Chinese LLMs, which has accelerated the evaluation time by 4.6 times, resulting in a 60% cost saving. WideDeep achieves a remarkable 93% agreement level among humans.

arxiv情報

著者 Xinghua Zhang,Bowen Yu,Haiyang Yu,Yangyu Lv,Tingwen Liu,Fei Huang,Hongbo Xu,Yongbin Li
発行日 2023-08-03 16:38:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク