要約
人間による評価はオープンドメイン対話評価のゴールドスタンダードであり続けていますが、大規模言語モデル(LLM)を使用した自動評価の人気が高まっており、対話にも適用されています。しかし、ほとんどのフレームワークは、流暢さや関連性などの側面で古いチャットボットを評価するベンチマークを活用しており、現代のモデルに関連する課題を反映していません。実際、GPT-3.5で生成された対話データセットであるSodaの定性的分析によると、現在のチャットボットは、一貫性と常識的知識に関連するいくつかの問題を繰り返し示す可能性がありますが、一般的に非常に流暢で適切な応答を生成することが示唆されています。 この論文では、前述の限界に注目し、GPT-4で生成された10K対話にわたる120K以上のターンレベル評価をカバーするSodaベースの注釈付きデータセットであるSoda-Evalを紹介します。Soda-Evalをベンチマークとして、いくつかのオープンアクセス命令チューニングLLMの性能を研究し、対話評価が依然として困難であることを発見した。これらのモデルをファインチューニングすることで、相関と説明の両面で、数ショット推論よりも性能が向上する。
要約(オリジナル)
Although human evaluation remains the gold standard for open-domain dialogue evaluation, the growing popularity of automated evaluation using Large Language Models (LLMs) has also extended to dialogue. However, most frameworks leverage benchmarks that assess older chatbots on aspects such as fluency and relevance, which are not reflective of the challenges associated with contemporary models. In fact, a qualitative analysis on Soda, a GPT-3.5 generated dialogue dataset, suggests that current chatbots may exhibit several recurring issues related to coherence and commonsense knowledge, but generally produce highly fluent and relevant responses. Noting the aforementioned limitations, this paper introduces Soda-Eval, an annotated dataset based on Soda that covers over 120K turn-level assessments across 10K dialogues, where the annotations were generated by GPT-4. Using Soda-Eval as a benchmark, we then study the performance of several open-access instruction-tuned LLMs, finding that dialogue evaluation remains challenging. Fine-tuning these models improves performance over few-shot inferences, both in terms of correlation and explanation.
arxiv情報
著者 | John Mendonça,Isabel Trancoso,Alon Lavie |
発行日 | 2024-10-04 14:32:01+00:00 |
arxivサイト | arxiv_id(pdf) |