要約
タスク指向ダイアログ (ToD) 用の高品質の注釈付きデータの作成は難しいことで知られていますが、複数の言語に対応した公平で文化に適応した大規模な ToD データセットを作成することが目標となると、課題はさらに大きくなります。
したがって、現在のデータセットは依然として非常に不足しており、特に翻訳アーチファクトを伴う翻訳ベースの非ネイティブ対話、小規模、文化的適応の欠如などの制限に悩まされています。
この作業では、まず多言語 ToD データセットの現在の状況を把握し、その特性と制限の体系的な概要を提供します。
検出されたすべての制限を軽減することを目的として、新しい多言語、マルチドメイン、マルチ並列 ToD データセットである Multi3WOZ を導入します。
これは大規模であり、文化的に適応したダイアログを 4 つの言語で提供し、多言語およびクロスリンガル ToD システムのトレーニングと評価を可能にします。
最終的なデータセットを生成する複雑なボトムアップ データ収集プロセスについて説明し、将来の参照用にさまざまな ToD 関連タスクにわたるベースライン スコアの最初のセットを提供し、その困難な性質も強調します。
要約(オリジナル)
Creating high-quality annotated data for task-oriented dialog (ToD) is known to be notoriously difficult, and the challenges are amplified when the goal is to create equitable, culturally adapted, and large-scale ToD datasets for multiple languages. Therefore, the current datasets are still very scarce and suffer from limitations such as translation-based non-native dialogs with translation artefacts, small scale, or lack of cultural adaptation, among others. In this work, we first take stock of the current landscape of multilingual ToD datasets, offering a systematic overview of their properties and limitations. Aiming to reduce all the detected limitations, we then introduce Multi3WOZ, a novel multilingual, multi-domain, multi-parallel ToD dataset. It is large-scale and offers culturally adapted dialogs in 4 languages to enable training and evaluation of multilingual and cross-lingual ToD systems. We describe a complex bottom-up data collection process that yielded the final dataset, and offer the first sets of baseline scores across different ToD-related tasks for future reference, also highlighting its challenging nature.
arxiv情報
著者 | Songbo Hu,Han Zhou,Mete Hergul,Milan Gritta,Guchun Zhang,Ignacio Iacobacci,Ivan Vulić,Anna Korhonen |
発行日 | 2023-07-26 08:29:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google