要約
オープンドメインの対話評価のための参照不要の学習メトリクスの最近の進歩は、事前トレーニング済み言語モデルの進歩と、高品質の人による注釈を備えた対話データの利用可能性によって推進されています。
しかし、現在の研究は主に英語の対話に焦点を当てており、これらの指標を他の言語に一般化することは十分に検討されていません。
これは主に、多言語対話の評価ベンチマークが存在しないことが原因です。
この問題に対処するために、オープンソースの英語対話評価データセット上に構築された xDial-Eval を導入します。
xDial-Eval には、12 のターン レベルと 6 つの対話レベルの英語データセットが含まれており、それぞれ 14930 の注釈付きターンと 8691 の注釈付き対話で構成されます。
英語の対話データは、商用の機械翻訳システムを使用して他の 9 つの言語に拡張されます。
xDial-Eval では、以前の BERT ベースのメトリクスと最近登場した大規模な言語モデルの包括的な分析を実行します。
最後に、強力な自己監視型の多言語ベースラインを確立します。
すべてのデータセットと言語にわたる平均ピアソン相関の点で、最良のベースラインは、パラメーターがはるかに少ないにもかかわらず、ターン レベルとダイアログ レベルでそれぞれ 6.5% と 4.6% の絶対的な改善により、OpenAI の ChatGPT を上回っています。
データとコードは https://github.com/e0397123/xDial-Eval で公開されています。
要約(オリジナル)
Recent advancements in reference-free learned metrics for open-domain dialogue evaluation have been driven by the progress in pre-trained language models and the availability of dialogue data with high-quality human annotations. However, current studies predominantly concentrate on English dialogues, and the generalization of these metrics to other languages has not been fully examined. This is largely due to the absence of a multilingual dialogue evaluation benchmark. To address the issue, we introduce xDial-Eval, built on top of open-source English dialogue evaluation datasets. xDial-Eval includes 12 turn-level and 6 dialogue-level English datasets, comprising 14930 annotated turns and 8691 annotated dialogues respectively. The English dialogue data are extended to nine other languages with commercial machine translation systems. On xDial-Eval, we conduct comprehensive analyses of previous BERT-based metrics and the recently-emerged large language models. Lastly, we establish strong self-supervised and multilingual baselines. In terms of average Pearson correlations over all datasets and languages, the best baseline outperforms OpenAI’s ChatGPT by absolute improvements of 6.5% and 4.6% at the turn and dialogue levels respectively, albeit with much fewer parameters. The data and code are publicly available at https://github.com/e0397123/xDial-Eval.
arxiv情報
著者 | Chen Zhang,Luis Fernando D’Haro,Chengguang Tang,Ke Shi,Guohua Tang,Haizhou Li |
発行日 | 2023-10-13 09:07:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google