Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

要約

大規模言語モデル (LLM) がより高度になるにつれて、その品質を正確に評価する能力を上回りました。
特定のモデルのプロパティを適切に調査するためのデータを見つけることが難しいだけでなく、モデルの自由形状生成の正確性だけを評価することも困難です。
これに対処するために、多くの評価は現在、LLM 自体を審査員として使用して、他の LLM からの出力の品質を採点することに依存しています。
評価では、GPT4 などの単一の大規模モデルを使用するのが最も一般的です。
この方法は人気が高まっていますが、コストが高く、モデル内バイアスを導入することが示されており、今回の研究では、非常に大規模なモデルが多くの場合不必要であることがわかりました。
代わりに、LLm 評価者のパネル (PoLL) を使用してモデルを評価することを提案します。
3 つの異なるジャッジ設定と 6 つの異なるデータセットにわたって、多数の小規模なモデルで構成される PoLL を使用すると、単一の大規模なジャッジよりも優れたパフォーマンスを発揮し、ばらばらのモデル ファミリの構成によりモデル内バイアスが少なくなり、同時にそうすることがわかりました。
7倍以上安くなります。

要約(オリジナル)

As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model’s freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.

arxiv情報

著者 Pat Verga,Sebastian Hofstatter,Sophia Althammer,Yixuan Su,Aleksandra Piktus,Arkady Arkhangorodsky,Minjie Xu,Naomi White,Patrick Lewis
発行日 2024-05-01 15:37:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク