Style Over Substance: Evaluation Biases for Large Language Models

要約

大規模言語モデル (LLM) が進歩し続けるにつれて、そのパフォーマンスを正確かつ包括的に評価することがますます困難になっています。
従来、人間による評価が自然言語生成の黄金律と考えられてきました。
最近の進歩では、評価プロセスにおいて人間の審査員の代理として最先端の LLM が組み込まれています。
それにもかかわらず、人間と LLM がどの程度の能力を評価できるかは依然として不確実です。
この研究は、異なるモデルからの出力を比較する際の、クラウドソースの人間の審査員と LLM ベースの審査員の両方の行動を調査することを目的としています。
これを達成するために、私たちは意図的に欠陥のある機械生成の回答を含むデータセットを厳選します。
私たちの調査結果は、事実誤認によってもたらされる潜在的により大きな危険にもかかわらず、事実誤認のある回答は、短すぎる回答や文法上の誤りを含む回答と比較して、依然としてより好意的に評価されたことを示しています。
これは、評価プロセスにおける懸念すべき偏りを浮き彫りにしています。
この問題に対処するために、すべての評価要素を 1 つのスコアに統合するのではなく、機械生成されたテキストを複数の側面にわたって個別に評価することを提案します。
このアイデアを Elo 評価システムで具体化し、Multi-Elo 評価システムが誕生しました。
私たちの研究の実証結果は、この提案されたアプローチが、特に事実の正確さの点で、LLM ベースの評価の品質を大幅に向上させることを明らかにしています。
ただし、クラウドソーシングベースの評価では目立った改善は観察されず、さらなる調査と改良の必要性が示唆されています。

要約(オリジナル)

As large language models (LLMs) continue to advance, accurately and comprehensively evaluating their performance becomes increasingly challenging. Conventionally, human evaluations are considered the gold standard in natural language generation. Recent advancements incorporate state-of-the-art LLMs as proxies for human judges in evaluation processes. Nonetheless, the extent to which humans and LLMs are capable evaluators remains uncertain. This study aims to investigate the behavior of both crowd-sourced human and LLM-based judges when comparing outputs from different models. To accomplish this, we curate a dataset comprising intentionally flawed machine-generated answers. Our findings indicate that despite the potentially greater danger posed by factual errors, answers with factual errors were still rated more favorably compared to answers that were too short or contained grammatical errors. This highlights a concerning bias in the evaluation process. To address this issue, we propose to independently evaluate machine-generated text across multiple dimensions, rather than merging all the evaluation aspects into a single score. We instantiate this idea with the Elo rating system, resulting in the Multi-Elo Rating System. Empirical results from our study reveal that this proposed approach significantly enhances the quality of LLM-based evaluations, particularly in terms of factual accuracy. However, notable improvement is not observed in crowd-sourced-based evaluations, suggesting the need for further investigation and refinement.

arxiv情報

著者 Minghao Wu,Alham Fikri Aji
発行日 2023-07-06 14:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク