要約
強化学習ベースの対話ポリシーは通常、ユーザー シミュレーターとの対話でトレーニングされます。
効果的で堅牢なポリシーを取得するには、このシミュレーターは現実的かつ多様なユーザーの行動を生成する必要があります。
現在のデータ駆動型シミュレーターは、対話コーパス内のユーザーの行動を正確にモデル化するようにトレーニングされています。
よりバリエーション豊かな現実的なユーザー行動をシミュレートすることを目的として、敵対的学習を使用した代替方法を提案します。
レストラン検索ダイアログのコーパス上でいくつかのシミュレーターをトレーニングおよび評価し、それらを使用して対話システム ポリシーをトレーニングします。
ポリシーの相互評価実験では、敵対的にトレーニングされたシミュレーターは、最尤法シミュレーターでトレーニングされたものよりも 8.3% 高い成功率でポリシーを生成することを実証しました。
クラウドソースの対話システムのユーザー評価から得られた主観的な結果は、敵対的トレーニングを行うユーザー シミュレーターの有効性を裏付けています。
要約(オリジナル)
Reinforcement learning based dialogue policies are typically trained in interaction with a user simulator. To obtain an effective and robust policy, this simulator should generate user behaviour that is both realistic and varied. Current data-driven simulators are trained to accurately model the user behaviour in a dialogue corpus. We propose an alternative method using adversarial learning, with the aim to simulate realistic user behaviour with more variation. We train and evaluate several simulators on a corpus of restaurant search dialogues, and then use them to train dialogue system policies. In policy cross-evaluation experiments we demonstrate that an adversarially trained simulator produces policies with 8.3% higher success rate than those trained with a maximum likelihood simulator. Subjective results from a crowd-sourced dialogue system user evaluation confirm the effectiveness of adversarially training user simulators.
arxiv情報
著者 | Simon Keizer,Caroline Dockes,Norbert Braunschweiler,Svetlana Stoyanchev,Rama Doddipatla |
発行日 | 2023-06-01 16:17:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google