要約
大規模言語モデル (LLM) 研究の加速により、生成されたテキストを評価する新たな可能性が開かれました。
これらはスケーラブルで経済的な評価器として機能しますが、これらの評価器がどの程度信頼できるかという問題が重要な研究課題として浮上しています。
裁判官としての LLM のメタ評価に関するこれまでの研究の取り組みでは、LLM のプロンプトは最終的な評価決定を得るために 1 回の使用に限定されていました。
次に、LLM の出力と人間のラベルの間の一致を計算します。
これは、LLM の評価機能を理解する上での解釈可能性に欠けています。
この課題を考慮して、教育的実践に基づいて評価プロセスをさまざまな段階に分割する分解と集約を提案します。
私たちの実験は、LLM がどの程度適切に評価するかをより解釈しやすいウィンドウを提供するだけでなく、さまざまなメタ評価ベンチマークでさまざまな LLM に対して最大 39.6% の改善につながることを示しています。
要約(オリジナル)
The acceleration of Large Language Models (LLMs) research has opened up new possibilities for evaluating generated texts. They serve as scalable and economical evaluators, but the question of how reliable these evaluators are has emerged as a crucial research question. Prior research efforts in the meta-evaluation of LLMs as judges limit the prompting of an LLM to a single use to obtain a final evaluation decision. They then compute the agreement between LLMs’ outputs and human labels. This lacks interpretability in understanding the evaluation capability of LLMs. In light of this challenge, we propose Decompose and Aggregate, which breaks down the evaluation process into different stages based on pedagogical practices. Our experiments illustrate that it not only provides a more interpretable window for how well LLMs evaluate, but also leads to improvements up to 39.6% for different LLMs on a variety of meta-evaluation benchmarks.
arxiv情報
著者 | Minzhi Li,Zhengyuan Liu,Shumin Deng,Shafiq Joty,Nancy F. Chen,Min-Yen Kan |
発行日 | 2024-05-24 08:12:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google