X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents

要約

新しい言語のデータセット作成コストが高いため、タスク指向の対話研究は主に英語や中国語などのいくつかの人気のある言語に焦点を当ててきました。
コストを削減するために、自動翻訳されたデータに手動編集を適用します。
中国語の RiSAWOZ を英語、フランス語、ヒンディー語、韓国語の 4 つの言語に翻訳することで、新しい多言語ベンチマーク X-RiSAWOZ を作成します。
英語とヒンディー語が混ざったコード言語です。
X-RiSAWOZ には、言語ごとに人間が検証した 18,000 を超える対話発話があり、これまでのほとんどの多言語対応の研究とは異なり、完全に機能するエージェントを構築するためのエンドツーエンドのデータセットです。
X-RiSAWOZ の作成中に遭遇した多くの困難により、翻訳後の新しい言語データセットの事後編集を高速化するツールセットを開発することになりました。
このツールセットは、ニューラルと辞書ベースの方法を組み合わせたハイブリッド エンティティ アライメント技術と、多くの自動および半自動の検証チェックによって機械翻訳を改善します。
私たちは、ターゲット言語で利用できるゴールド データが限られているゼロショットおよび少数ショットの設定で対話エージェントをトレーニングすることにより、X-RiSAWOZ の強力なベースラインを確立します。
私たちの結果は、私たちの翻訳およびポストエディットの方法論とツールセットを使用して、新しい高品質の多言語対話エージェントをコスト効率よく作成できることを示唆しています。
私たちのデータセット、コード、ツールキットはオープンソースでリリースされています。

要約(オリジナル)

Task-oriented dialogue research has mainly focused on a few popular languages like English and Chinese, due to the high dataset creation cost for a new language. To reduce the cost, we apply manual editing to automatically translated data. We create a new multilingual benchmark, X-RiSAWOZ, by translating the Chinese RiSAWOZ to 4 languages: English, French, Hindi, Korean; and a code-mixed English-Hindi language. X-RiSAWOZ has more than 18,000 human-verified dialogue utterances for each language, and unlike most multilingual prior work, is an end-to-end dataset for building fully-functioning agents. The many difficulties we encountered in creating X-RiSAWOZ led us to develop a toolset to accelerate the post-editing of a new language dataset after translation. This toolset improves machine translation with a hybrid entity alignment technique that combines neural with dictionary-based methods, along with many automated and semi-automated validation checks. We establish strong baselines for X-RiSAWOZ by training dialogue agents in the zero- and few-shot settings where limited gold data is available in the target language. Our results suggest that our translation and post-editing methodology and toolset can be used to create new high-quality multilingual dialogue agents cost-effectively. Our dataset, code, and toolkit are released open-source.

arxiv情報

著者 Mehrad Moradshahi,Tianhao Shen,Kalika Bali,Monojit Choudhury,Gaël de Chalendar,Anmol Goel,Sungkyun Kim,Prashant Kodali,Ponnurangam Kumaraguru,Nasredine Semmar,Sina J. Semnani,Jiwon Seo,Vivek Seshadri,Manish Shrivastava,Michael Sun,Aditya Yadavalli,Chaobin You,Deyi Xiong,Monica S. Lam
発行日 2023-06-30 14:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク