Enhancing End-to-End Multi-Task Dialogue Systems: A Study on Intrinsic Motivation Reinforcement Learning Algorithms for Improved Training and Adaptability

要約

エンドツーエンドのマルチタスク対話システムは、通常、対話パイプライン用に別個のモジュールを使用して設計されています。
このうち、ポリシー モジュールは、ユーザー入力に応じて何を行うかを決定するために不可欠です。
このポリシーは、エージェントが報酬信号の形式でフィードバックを受け取る環境を利用して、強化学習アルゴリズムによってトレーニングされます。
しかし、現在の対話システムは、貧弱で単純な報酬しか提供しません。
内発的動機づけ強化学習アルゴリズムを調査することがこの研究の目標です。
これにより、エージェントはトレーニングを迅速に加速し、内部インセンティブ システムを教えることでアクションの質を判断する能力を向上させることができます。
特に、ランダムネットワーク蒸留と好奇心主導の強化学習の技術を適応させて、州訪問の頻度を測定し、発話間の意味論的な類似性を使用して探索を促進します。
異種データセットである MultiWOZ の実験結果は、内発的動機に基づく議論システムが外発的インセンティブに依存する政策よりも優れていることを示しています。
たとえば、ユーザーとシステムの対話間の意味論的な類似性を使用してトレーニングされるランダム ネットワーク蒸留を採用することにより、73% という驚異的な平均成功率が達成されます。
これは、平均成功率が 60% であるベースラインの近接ポリシー最適化 (PPO) に比べて大幅な改善です。
さらに、予約率や完了率などのパフォーマンス指標は、ベースラインより 10% 上昇していることを示しています。
さらに、これらの固有のインセンティブ モデルは、増加するドメインにおけるシステム ポリシーの回復力の向上に役立ちます。
これは、より広範囲のドメインをカバーする設定にスケールアップするのに役立つ可能性があることを意味します。

要約(オリジナル)

End-to-end multi-task dialogue systems are usually designed with separate modules for the dialogue pipeline. Among these, the policy module is essential for deciding what to do in response to user input. This policy is trained by reinforcement learning algorithms by taking advantage of an environment in which an agent receives feedback in the form of a reward signal. The current dialogue systems, however, only provide meagre and simplistic rewards. Investigating intrinsic motivation reinforcement learning algorithms is the goal of this study. Through this, the agent can quickly accelerate training and improve its capacity to judge the quality of its actions by teaching it an internal incentive system. In particular, we adapt techniques for random network distillation and curiosity-driven reinforcement learning to measure the frequency of state visits and encourage exploration by using semantic similarity between utterances. Experimental results on MultiWOZ, a heterogeneous dataset, show that intrinsic motivation-based debate systems outperform policies that depend on extrinsic incentives. By adopting random network distillation, for example, which is trained using semantic similarity between user-system dialogues, an astounding average success rate of 73% is achieved. This is a significant improvement over the baseline Proximal Policy Optimization (PPO), which has an average success rate of 60%. In addition, performance indicators such as booking rates and completion rates show a 10% rise over the baseline. Furthermore, these intrinsic incentive models help improve the system’s policy’s resilience in an increasing amount of domains. This implies that they could be useful in scaling up to settings that cover a wider range of domains.

arxiv情報

著者 Navin Kamuni,Hardik Shah,Sathishkumar Chintala,Naveen Kunchakuri,Sujatha Alla Old Dominion
発行日 2024-01-31 18:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク