Learning towards Selective Data Augmentation for Dialogue Generation

要約

ニューラル ダイアログ モデルをトレーニングするために膨大な量のデータを取得するのは面倒で費用がかかるため、既存のトレーニング サンプルを効果的に利用するためにデータ拡張が提案されています。
ただし、ダイアログ生成タスクの現在のデータ拡張技術は、ほとんどの場合、異なるケース間の固有の属性を考慮せずに、トレーニング データセット内のすべてのケースを拡張します。
すべてのケースが拡張タスクに有益であるとは限らず、拡張に適したケースは次の 2 つの属性に従う必要があると主張します。(1) 低品質 (ダイアログ モデルはケースに対して高品質の応答を生成できない)、(2)
代表 (ケースはデータセット全体のプロパティを表す必要があります)。
ここでは、応答生成タスクの選択的データ拡張フレームワーク (SDA) を提案することにより、このアイデアを探ります。
SDA は、二重の敵対的ネットワークを採用して、1 段階での増強のために最低品質で最も代表的なデータ ポイントを選択します。
公開されている 2 つのデータセット、つまり DailyDialog と OpenSubtitles で実施された広範な実験では、さまざまなメトリックに関して、フレームワークが応答生成のパフォーマンスを向上できることが示されています。

要約(オリジナル)

As it is cumbersome and expensive to acquire a huge amount of data for training neural dialog models, data augmentation is proposed to effectively utilize existing training samples. However, current data augmentation techniques on the dialog generation task mostly augment all cases in the training dataset without considering the intrinsic attributes between different cases. We argue that not all cases are beneficial for augmentation task, and the cases suitable for augmentation should obey the following two attributes: (1) low-quality (the dialog model cannot generate a high-quality response for the case), (2) representative (the case should represent the property of the whole dataset). Herein, we explore this idea by proposing a Selective Data Augmentation framework (SDA) for the response generation task. SDA employs a dual adversarial network to select the lowest quality and most representative data points for augmentation in one stage. Extensive experiments conducted on two publicly available datasets, \ie DailyDialog and OpenSubtitles, show that our framework can improve the response generation performance with respect to various metrics.

arxiv情報

著者 Xiuying Chen,Mingzhe Li,Jiayi Zhang,Xiaoqiang Xia,Chen Wei,Jianwei Cui,Xin Gao,Xiangliang Zhang,Rui Yan
発行日 2023-03-17 01:26:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク