要約
最近の研究では通常、強化学習 (RL) エージェントをトレーニングして最適なダイアログ アクションを決定することにより、ダイアログ ポリシー学習 DPL に取り組んでいます。
ただし、ディープ RL に関する既存の作業では、許容可能なパフォーマンスを達成するために大量のエージェントとユーザーの対話が必要です。
この論文では、事前トレーニングされた言語モデルからの平文知識を最大限に活用して、RL エージェントの学習速度を加速することを提案します。
具体的には、ダイアログ アクション認識トランスフォーマー エンコーダー (DaTrans) を設計します。これは、マスクされた最後のアクション タスクと呼ばれる新しい微調整手順を統合して、DaTrans がダイアログを認識するように促し、アクション固有の機能を抽出します。
その後、DaTrans は継続的なインタラクションを伴う RL 設定でさらに最適化され、長期的に蓄積された報酬を最大化するために対話アクション空間の探索を通じて進化します。
提案されたモデルの有効性と効率は、シミュレータ評価と人間による評価の両方で実証されます。
要約(オリジナル)
Recent works usually address Dialog policy learning DPL by training a reinforcement learning (RL) agent to determine the best dialog action. However, existing works on deep RL require a large volume of agent-user interactions to achieve acceptable performance. In this paper, we propose to make full use of the plain text knowledge from the pre-trained language model to accelerate the RL agent’s learning speed. Specifically, we design a dialog action-aware transformer encoder (DaTrans), which integrates a new fine-tuning procedure named masked last action task to encourage DaTrans to be dialog-aware and distils action-specific features. Then, DaTrans is further optimized in an RL setting with ongoing interactions and evolves through exploration in the dialog action space toward maximizing long-term accumulated rewards. The effectiveness and efficiency of the proposed model are demonstrated with both simulator evaluation and human evaluation.
arxiv情報
著者 | Huimin Wang,Wai-Chung Kwan,Kam-Fai Wong |
発行日 | 2023-09-05 13:47:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google