要約
LLM のパフォーマンスを評価するために、人間および大規模言語モデル (LLM) を審査員として採用する (\textit{a.k.a} human-and LLM-as-a-judge) ことが最近注目を集めています。
それにもかかわらず、このアプローチは人間と LLM の審査員による潜在的なバイアスを同時に導入し、評価結果の信頼性に疑問が生じます。
この論文では、LLMと人間の裁判官に関する誤謬監視バイアス、権威バイアス、美しさバイアスを調査するためのグラウンドトゥルースのアノテーションを参照しない新しいフレームワークを提案します。
私たちは、改訂されたブルーム分類法を参照してデータセットを厳選し、数千件の人的および LLM 評価を実施します。
結果は、人間と LLM の裁判官はさまざまな程度の摂動に対して脆弱であり、最先端の裁判官でさえかなりの偏見を持っていることを示しています。
私たちはさらに彼らの弱点を突いて、LLM 裁判官に対して攻撃を行います。
私たちは、私たちの取り組みが、混乱に対する人間と裁判官としての LLM の脆弱性、および堅牢な評価システムの開発の緊急性をコミュニティに知らせることができることを願っています。
要約(オリジナル)
Adopting human and large language models (LLM) as judges (\textit{a.k.a} human- and LLM-as-a-judge) for evaluating the performance of LLMs has recently gained attention. Nonetheless, this approach concurrently introduces potential biases from human and LLM judges, questioning the reliability of the evaluation results. In this paper, we propose a novel framework that is free from referencing groundtruth annotations for investigating Fallacy Oversight Bias, Authority Bias and Beauty Bias on LLM and human judges. We curate a dataset referring to the revised Bloom’s Taxonomy and conduct thousands of human and LLM evaluations. Results show that human and LLM judges are vulnerable to perturbations to various degrees, and that even the cutting-edge judges possess considerable biases. We further exploit their weakness and conduct attacks on LLM judges. We hope that our work can notify the community of the vulnerability of human- and LLM-as-a-judge against perturbations, as well as the urgency of developing robust evaluation systems.
arxiv情報
著者 | Guiming Hardy Chen,Shunian Chen,Ziche Liu,Feng Jiang,Benyou Wang |
発行日 | 2024-04-17 09:56:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google