要約
最近の進歩にもかかわらず、大規模言語モデル (LLM) がユーザーの指示にどの程度従うかを評価することは依然として未解決の問題です。
言語モデルの評価方法では、プロンプトベースのアプローチが増加していますが、これらの方法の正確さに関する研究は限定的に行われています。
この研究では、LLM の指示に従う能力をどの程度正確に測定するかを定量化するために、さまざまな指標のメタ評価を実行します。
私たちの調査は、それぞれ $3$ の回答を持つ $300$ の文書と命令のペアを含む、新しい短い形式の実世界データセット riSum を収集することによって、根拠のあるクエリベースの要約に基づいて実行されます。
$900$ の回答はすべて、$3$ の人間のアノテーターによって評価されます。
riSumを用いて評価方法と人間の判断との一致を分析します。
最後に、確立されたベースラインを改善し、高品質の要約を必要とする高価な参照ベースの指標と同等のパフォーマンスを発揮する、新しい LLM ベースの参照不要の評価方法を提案します。
要約(オリジナル)
Despite recent advances, evaluating how well large language models (LLMs) follow user instructions remains an open problem. While evaluation methods of language models have seen a rise in prompt-based approaches, limited work on the correctness of these methods has been conducted. In this work, we perform a meta-evaluation of a variety of metrics to quantify how accurately they measure the instruction-following abilities of LLMs. Our investigation is performed on grounded query-based summarization by collecting a new short-form, real-world dataset riSum, containing $300$ document-instruction pairs with $3$ answers each. All $900$ answers are rated by $3$ human annotators. Using riSum, we analyze agreement between evaluation methods and human judgment. Finally, we propose new LLM-based reference-free evaluation methods that improve upon established baselines and perform on-par with costly reference-based metrics which require high-quality summaries.
arxiv情報
著者 | Ondrej Skopek,Rahul Aralikatte,Sian Gooding,Victor Carbune |
発行日 | 2023-10-12 15:07:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google