Contextual Data Augmentation for Task-Oriented Dialog Systems

要約

タスク指向のダイアログ システムをトレーニングするための注釈付きダイアログのコレクションは、現在のモデルを改善する上での重要なボトルネックの 1 つです。
ダイアログ応答の生成はエージェント側で広く研究されていますが、同様の生成モデルを使用して、実際のダイアログ システムが実際に遭遇する多種多様で、多くの場合予期しないユーザー入力を生成できるかどうかは明らかではありません。
言い換え生成などの既存のデータ拡張手法では、ダイアログのコンテキストが考慮されていません。
この論文では、完全なダイアログ コンテキストを条件として、ユーザー ターンを生成する新しいダイアログ拡張モデルを開発します。
さらに、言語モデルの新しいプロンプト設計と出力の再ランキングにより、モデルから生成されたダイアログを下流のダイアログ システムのトレーニングに直接使用できます。
一般的なベンチマーク データセット MultiWoZ および SGD で、ダイアログ拡張モデルが高品質のダイアログを生成し、ベースラインよりも $8\%$ もダイアログの成功率を向上させることを示します。

要約(オリジナル)

Collection of annotated dialogs for training task-oriented dialog systems have been one of the key bottlenecks in improving current models. While dialog response generation has been widely studied on the agent side, it is not evident if similar generative models can be used to generate a large variety of, and often unexpected, user inputs that real dialog systems encounter in practice. Existing data augmentation techniques such as paraphrase generation do not take the dialog context into consideration. In this paper, we develop a novel dialog augmentation model that generates a user turn, conditioning on full dialog context. Additionally, with a new prompt design for language model, and output re-ranking, the dialogs generated from our model can be directly used to train downstream dialog systems. On common benchmark datasets MultiWoZ and SGD, we show that our dialog augmentation model generates high quality dialogs and improves dialog success rate by as much as $8\%$ over baseline.

arxiv情報

著者 Dustin Axman,Avik Ray,Shubham Garg,Jing Huang
発行日 2023-10-16 13:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク