Rescue Conversations from Dead-ends: Efficient Exploration for Task-oriented Dialogue Policy Optimization

要約

【タイトル】タスク指向対話ポリシー最適化のための効率的な探索:行き詰まりからの対話の救出

【要約】

– 深層強化学習を使用して対話ポリシーをトレーニングするには、環境を探査する必要があるため、無効な探査は学習を非効率にします。
– 本論文では、無効な探査の重要な原因である「行き詰まり」を発見し、定義します。会話が行き詰まり状態に入ると、その後のアクションに関係なく、エージェントが終了状態または最大ターンに達するまで行き詰まった軌跡で継続します。
– 我々は、「dead-end resurrection (DDR)」アルゴリズムを提案し、初期の行き詰まり状態を迅速かつ効率的に検出し、探査方向を誘導して修正する救出アクションを提供します。
– 対話ポリシーが同じ間違いを繰り返すのを防ぐために、DDRはデッドエンド状態を含む関連する経験を追加する対話データの拡張も実行します。
– 最初に、デッドエンド検出の信頼性を検証し、次に、異なるドメインのいくつかの対話データセットに関する実験結果を報告することにより、この方法の効果と一般性を示します。

要約(オリジナル)

Training a dialogue policy using deep reinforcement learning requires a lot of exploration of the environment. The amount of wasted invalid exploration makes their learning inefficient. In this paper, we find and define an important reason for the invalid exploration: dead-ends. When a conversation enters a dead-end state, regardless of the actions taken afterward, it will continue in a dead-end trajectory until the agent reaches a termination state or maximum turn. We propose a dead-end resurrection (DDR) algorithm that detects the initial dead-end state in a timely and efficient manner and provides a rescue action to guide and correct the exploration direction. To prevent dialogue policies from repeatedly making the same mistake, DDR also performs dialogue data augmentation by adding relevant experiences containing dead-end states. We first validate the dead-end detection reliability and then demonstrate the effectiveness and generality of the method by reporting experimental results on several dialogue datasets from different domains.

arxiv情報

著者 Yangyang Zhao,Zhenyu Wang,Mehdi Dastani,Shihan Wang
発行日 2023-05-05 03:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.HC パーマリンク