要約
大規模なオズの魔法使いの対話データセットにより、深層学習ベースの対話システムのトレーニングが可能になりました。
これらはベンチマーク データセットとしては成功していますが、より現実的になる特定の種類の発話が欠けています。
この研究では、自動パイプラインでの合成通信エラーの生成を調査します。
言語理論に基づいて、単純なエラー分類法を提案し、それに従う。
私たちは、現実の対話で発生する可能性があるが、ベンチマーク データセットでは過小評価されている 3 つのタイプのミスコミュニケーション (誤解、理解不足、関連性が曖昧な質問) に焦点を当てています。
私たちの 2 段階のアプローチでは、最先端の大規模言語モデル (LLM) を使用して、まずエラーを作成し、次に発話を修復します。
言語モデルに基づいた評価を実行して、生成された発話の品質を保証します。
この方法を MultiWOZ データセットに適用し、人間の判断だけでなく定性的および経験的にも評価します。
私たちの結果は、現在の LLM がデータ拡張の一形態としてベンチマーク データセットに事後的なミスコミュニケーションを追加するのに役立つことを示しています。
私たちは、対話システムに関する今後の作業を容易にするために、約 1900 の対話が変更された結果のデータセットを CoPrUS-MultiWOZ として公開します。
要約(オリジナル)
Large-scale Wizard-Of-Oz dialogue datasets have enabled the training of deep learning-based dialogue systems. While they are successful as benchmark datasets, they lack certain types of utterances, which would make them more realistic. In this work, we investigate the creation of synthetic communication errors in an automatic pipeline. Based on linguistic theory, we propose and follow a simple error taxonomy. We focus on three types of miscommunications that could happen in real-world dialogues but are underrepresented in the benchmark dataset: misunderstandings, non-understandings and vaguely related questions. Our two-step approach uses a state-of-the-art Large Language Model (LLM) to first create the error and secondly the repairing utterance. We perform Language Model-based evaluation to ensure the quality of the generated utterances. We apply the method to the MultiWOZ dataset and evaluate it both qualitatively and empirically as well as with human judges. Our results indicate that current LLMs can aid in adding post-hoc miscommunications to benchmark datasets as a form of data augmentation. We publish the resulting dataset, in which nearly 1900 dialogues have been modified, as CoPrUS-MultiWOZ to facilitate future work on dialogue systems.
arxiv情報
著者 | Sebastian Steindl,Ulrich Schäfer,Bernd Ludwig |
発行日 | 2024-12-10 13:51:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google