要約
対話評価の新しい標準として歓迎されているにもかかわらず、GPT-4 のクローズドソースの性質がコミュニティに課題をもたらしています。
軽量でオープンソースの多言語対話評価ツールの必要性を動機として、このペーパーでは GenResCoh (Coherence を対象とした生成された応答) を紹介します。
GenResCoh は、英語、フランス語、ドイツ語、イタリア語、中国語をカバーする 130,000 を超える否定的および肯定的な応答と、XDailyDialog および Xpersona からシードされた付随する説明で構成される、LLM で生成された新しいデータセットです。
GenResCoh を活用して、複数の言語にわたる応答の一貫性を評価するように訓練された評価者のファミリーである ECoh (Evaluation of Coherence) を提案します。
実験結果は、ECoh がはるかに小規模なアーキテクチャに基づいているにもかかわらず、GenResCoh 上の教師モデル (GPT-3.5-Turbo) よりも優れた多言語検出機能を実現していることを示しています。
さらに、ECoh によって提供される説明は、教師モデルによって生成された説明と品質の点で厳密に一致しています。
要約(オリジナル)
Despite being heralded as the new standard for dialogue evaluation, the closed-source nature of GPT-4 poses challenges for the community. Motivated by the need for lightweight, open source, and multilingual dialogue evaluators, this paper introduces GenResCoh (Generated Responses targeting Coherence). GenResCoh is a novel LLM generated dataset comprising over 130k negative and positive responses and accompanying explanations seeded from XDailyDialog and XPersona covering English, French, German, Italian, and Chinese. Leveraging GenResCoh, we propose ECoh (Evaluation of Coherence), a family of evaluators trained to assess response coherence across multiple languages. Experimental results demonstrate that ECoh achieves multilingual detection capabilities superior to the teacher model (GPT-3.5-Turbo) on GenResCoh, despite being based on a much smaller architecture. Furthermore, the explanations provided by ECoh closely align in terms of quality with those generated by the teacher model.
arxiv情報
著者 | John Mendonça,Isabel Trancoso,Alon Lavie |
発行日 | 2024-07-16 12:28:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google