Towards Multilingual Automatic Dialogue Evaluation

要約

堅牢な多言語対話評価指標の開発における主な制限要因は、多言語データの欠如と、オープンソースの多言語対話システムの利用可能性が限られていることです。
この研究では、強力な多言語の事前トレーニング済み LLM を活用し、機械翻訳を使用して既存の英語対話データを増強することにより、このデータ不足の回避策を提案します。
私たちは、翻訳済みデータを使用して事前トレーニング済みの多言語エンコーダー モデルを微調整する単純なアプローチでは、ソース データのみを使用して多言語モデルを微調整する強力なベースラインを上回るパフォーマンスを発揮するには不十分であることを経験的に示しています。
代わりに、最良のアプローチは、MT 品質推定メトリクスを使用して翻訳データを慎重にキュレーションし、パフォーマンスを妨げる低品質の翻訳を除外することにあります。

要約(オリジナル)

The main limiting factor in the development of robust multilingual dialogue evaluation metrics is the lack of multilingual data and the limited availability of open sourced multilingual dialogue systems. In this work, we propose a workaround for this lack of data by leveraging a strong multilingual pretrained LLM and augmenting existing English dialogue data using Machine Translation. We empirically show that the naive approach of finetuning a pretrained multilingual encoder model with translated data is insufficient to outperform the strong baseline of finetuning a multilingual model with only source data. Instead, the best approach consists in the careful curation of translated data using MT Quality Estimation metrics, excluding low quality translations that hinder its performance.

arxiv情報

著者 John Mendonça,Alon Lavie,Isabel Trancoso
発行日 2023-08-31 15:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク