Style Over Substance: Evaluation Biases for Large Language Models

要約

大規模言語モデル (LLM) が進歩し続けるにつれて、そのパフォーマンスを正確かつ包括的に評価することがますます困難になっています。
従来、人間による評価が自然言語生成のゴールドスタンダードと考えられていましたが、最近の進歩では、評価プロセスにおいて人間の判断者の代理として最先端の LLM が組み込まれています。
ただし、人間と LLM がどの程度の能力を評価できるかは依然として不明です。
この研究では、さまざまなモデルからの出力を比較する際の、クラウドソースのアノテーターと専門アノテーター、および LLM の動作を調査します。
これを達成するために、私たちは意図的に欠陥のある機械生成された回答のデータセットを厳選します。
私たちの調査結果は、事実上の間違いを含む回答は、短すぎる回答や文法上の誤りを含む回答よりも好意的に評価されるため、評価プロセスにおける懸念すべき偏りを明らかにしています。
この問題に対処するために、すべての評価要素を 1 つのスコアに統合するのではなく、機械生成されたテキストを複数の側面にわたって個別に評価することを提案します。
このアイデアを Elo 評価システムで具体化し、Multi-Elo 評価システムが誕生しました。
私たちの研究の実証結果は、この提案されたアプローチが、特に事実の正確さの点で、LLM ベースの評価の品質を大幅に向上させることを明らかにしています。
ただし、クラウドソーシングベースの評価には大きな改善は見られず、さらなる調査と改良の必要性が示されています。

要約(オリジナル)

As large language models (LLMs) continue to advance, accurately and comprehensively evaluating their performance becomes increasingly challenging. Human evaluations are conventionally considered the gold standard in natural language generation, but recent advancements incorporate state-of-the-art LLMs as proxies for human judges in evaluation processes. However, the extent to which humans and LLMs are capable evaluators remains uncertain. This study investigates the behavior of crowd-sourced and expert annotators, as well as LLMs, when comparing outputs from different models. To achieve this, we curate a dataset of intentionally flawed machine-generated answers. Our findings reveal a concerning bias in the evaluation process, as answers with factual errors are rated more favorably than answers that are too short or contained grammatical errors. To address this issue, we propose independently evaluating machine-generated text across multiple dimensions, rather than merging all the evaluation aspects into a single score. We instantiate this idea with the Elo rating system, resulting in the Multi-Elo Rating System. Empirical results from our study reveal that this proposed approach significantly enhances the quality of LLM-based evaluations, particularly in terms of factual accuracy. However, there is no significant improvement in crowd-sourced-based evaluations, indicating the need for further investigation and refinement.

arxiv情報

著者 Minghao Wu,Alham Fikri Aji
発行日 2023-08-15 05:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク