A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation

要約

現在の最先端の対話システムは、広範なトレーニング データセットに大きく依存しています。
ただし、ドメイン固有のトレーニング データセットが不十分であるか、まったく存在しないドメインでは課題が発生します。
この課題に取り組むために、\textbf{M}ulti-\textbf{D}omain \textbf{D}ialogue \textbf{G} 生成のための新しいデータ \textbf{A} 増強フレームワークを提案します。\textbf{
AMD$^2$G}。
AMD$^2$G フレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという 2 段階のトレーニング アプローチで構成されます。
私たちは、ドメイン コーパスはドメインに依存しない特徴とドメイン固有の特徴が融合したものであり、特定の表現パターンが多様なドメイン間で共有されていると仮定します。
ドメインに依存しないトレーニングは、モデルがこれらの一般的な表現パターンを学習できるようにすることを目的としています。
ドメインに依存しない対話コーパスを構築するために、ドメイン固有の機能を削除するために使用される \textit{\textbf{de-domaining}} データ処理技術を採用します。
ドメイン固有の特徴の影響を軽減することにより、ドメインを解除されたコーパスでトレーニングされたモデルは、さまざまなドメインでの共通の発現パターンを効果的に学習できます。
その後、ドメイン適応トレーニングを通じて、学習したドメインに依存しない特徴をターゲット ドメインに適応させます。
5 つの異なるドメインの中国語対話データセットで実験を実施し、AMD$^2$G がターゲット ドメイン コーパスでの直接トレーニングと 5 つのドメイン コーパスすべてでの集合トレーニングの両方と比較して優れたパフォーマンスを達成することを示しました。
私たちの研究は、AMD$^2$G が低リソースのマルチドメイン対話生成のための実行可能な代替ソリューションであることを強調しています。
私たちの仕事に関連するコードとデータは、GitHub リポジトリ$^{\text 1}$で入手できます。

要約(オリジナル)

Current state-of-the-art dialogue systems heavily rely on extensive training datasets. However, challenges arise in domains where domain-specific training datasets are insufficient or entirely absent. To tackle this challenge, we propose a novel data \textbf{A}ugmentation framework for \textbf{M}ulti-\textbf{D}omain \textbf{D}ialogue \textbf{G}eneration, referred to as \textbf{AMD$^2$G}. The AMD$^2$G framework consists of a data augmentation process and a two-stage training approach: domain-agnostic training and domain adaptation training. We posit that domain corpora are a blend of domain-agnostic and domain-specific features, with certain representation patterns shared among diverse domains. Domain-agnostic training aims to enable models to learn these common expressive patterns. To construct domain-agnostic dialogue corpora, we employ a \textit{\textbf{de-domaining}} data processing technique used to remove domain-specific features. By mitigating the effects of domain-specific features, the model trained on the de-domained corpora can effectively learn common expression patterns in different domains. Subsequently, we adapt the learned domain-agnostic features to the target domain through domain adaptation training. We conduct experiments on Chinese dialogue datasets from five different domains and show that AMD$^2$G achieves superior performance compared to both direct training on the target domain corpus and collective training on all five domain corpora. Our work underscores AMD$^2$G as a viable alternative solution for low-resource multi-domain dialogue generation. Code and data associated with our work are available on GitHub repository$^{\text 1}$.

arxiv情報

著者 Yongkang Liu,Ercong Nie,Shi Feng,Zheng Hua,Zifeng Ding,Daling Wang,Yifei Zhang,Hinrich Schütze
発行日 2024-06-28 12:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク