Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning

要約

強化学習に基づいてタスク指向の対話エージェントをトレーニングするには時間がかかり、実際のユーザーとの多数の対話が必要になります。
限られた対話エクスペリエンス内で対話ポリシーをどのように把握するかが依然として障害となり、エージェントのトレーニング プロセスの効率が低下します。
さらに、以前のフレームワークのほとんどは、トレーニング サンプルをランダムに選択することによってトレーニングを開始します。これは人間の学習方法とは異なり、トレーニングの効率と安定性を損なうものです。
したがって、我々は、最先端のモデルベースの強化学習対話モデルである Deep Dyna-Q (DDQ) に基づいた、好奇心主導のカリキュラム学習フレームワークである Scheduled Curiosity-Deep Dyna-Q (SC-DDQ) を提案します。
さらに、古典的なカリキュラム学習とその逆バージョンという 2 つの相反するトレーニング戦略に従って、それぞれ SC-DDQ と DDQ の学習スケジュールを設計しました。
私たちの結果は、計画された学習と好奇心を導入することにより、新しいフレームワークが DDQ およびディープ Q ラーニング (DQN) よりも大幅な改善につながることを示しています。
驚いたことに、従来のカリキュラム学習が必ずしも効果的ではないことがわかりました。
具体的には、実験結果によれば、SC-DDQ と DDQ には、easy-first 戦略と Hard-first 戦略がより適しています。
結果を分析するために、アクション探索を表すためにサンプリングされたアクションのエントロピーを採用しました。その結果、最初の段階で高エントロピー、最後の段階で低いエントロピーを使用したトレーニング戦略がパフォーマンスの向上につながることがわかりました。

要約(オリジナル)

Training task-oriented dialog agents based on reinforcement learning is time-consuming and requires a large number of interactions with real users. How to grasp dialog policy within limited dialog experiences remains an obstacle that makes the agent training process less efficient. In addition, most previous frameworks start training by randomly choosing training samples, which differs from the human learning method and hurts the efficiency and stability of training. Therefore, we propose Scheduled Curiosity-Deep Dyna-Q (SC-DDQ), a curiosity-driven curriculum learning framework based on a state-of-the-art model-based reinforcement learning dialog model, Deep Dyna-Q (DDQ). Furthermore, we designed learning schedules for SC-DDQ and DDQ, respectively, following two opposite training strategies: classic curriculum learning and its reverse version. Our results show that by introducing scheduled learning and curiosity, the new framework leads to a significant improvement over the DDQ and Deep Q-learning(DQN). Surprisingly, we found that traditional curriculum learning was not always effective. Specifically, according to the experimental results, the easy-first and difficult-first strategies are more suitable for SC-DDQ and DDQ. To analyze our results, we adopted the entropy of sampled actions to depict action exploration and found that training strategies with high entropy in the first stage and low entropy in the last stage lead to better performance.

arxiv情報

著者 Xuecheng Niu,Akinori Ito,Takashi Nose
発行日 2024-05-20 12:10:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク