要約
自動対話評価指標の開発には多大な研究努力が払われているにもかかわらず、英語以外の対話の評価についてはほとんど考慮されていません。
同時に、メトリクスが意味的に類似した応答に対して不変であることを保証することも、見落とされているトピックです。
対話評価指標の堅牢性と多言語性という望ましい特性を達成するために、大規模言語モデル (LLM) をプロンプトするという新たに確立されたパラダイムを備えた現在の評価モデルの強みを活用する新しいフレームワークを提案します。
実証結果は、当社のフレームワークがいくつかのベンチマークにわたる平均スピアマン相関スコアの点で最先端の結果を達成し、DSTC11 トラック 4「オープンドメイン対話システムの自動評価指標」のロバストタスクと多言語タスクの両方で第 1 位にランクされていることを示しています。
プロンプト LLM の評価機能。
要約(オリジナル)
Despite significant research effort in the development of automatic dialogue evaluation metrics, little thought is given to evaluating dialogues other than in English. At the same time, ensuring metrics are invariant to semantically similar responses is also an overlooked topic. In order to achieve the desired properties of robustness and multilinguality for dialogue evaluation metrics, we propose a novel framework that takes advantage of the strengths of current evaluation models with the newly-established paradigm of prompting Large Language Models (LLMs). Empirical results show our framework achieves state of the art results in terms of mean Spearman correlation scores across several benchmarks and ranks first place on both the Robust and Multilingual tasks of the DSTC11 Track 4 ‘Automatic Evaluation Metrics for Open-Domain Dialogue Systems’, proving the evaluation capabilities of prompted LLMs.
arxiv情報
著者 | John Mendonça,Patrícia Pereira,Helena Moniz,João Paulo Carvalho,Alon Lavie,Isabel Trancoso |
発行日 | 2023-09-08 11:24:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google