Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems

要約

タスク指向対話 (ToD) エージェントを学習する場合、強化学習 (RL) 手法を自然に利用して、ユーザー固有の目標を達成するための対話戦略をトレーニングできます。
以前の研究では主に、高度な RL 手法を採用して ToD エージェントをトレーニングすることに焦点を当てていましたが、報酬関数の設計は十分に研究されていません。
このホワイト ペーパーは、エンド ツー エンド (E2E) の ToD エージェントをトレーニングするために、報酬関数を効率的に学習して活用する方法に関する質問に答えることを目的としています。
具体的には、報酬関数学習の 2 つの一般化された目的を紹介します。これは、古典的なランク付け学習の文献に触発されたものです。
さらに、学習した報酬関数を利用して、E2E ToD エージェントのトレーニングをガイドします。
提案された手法を使用して、Multiwoz 2.0 データセットの E2E 応答生成タスクで競争力のある結果を達成します。
ソース コードとチェックポイントは、https://github.com/Shantao-YANG/Fantastic_Reward_ICLR2023 で公開されています。

要約(オリジナル)

When learning task-oriented dialogue (ToD) agents, reinforcement learning (RL) techniques can naturally be utilized to train dialogue strategies to achieve user-specific goals. Prior works mainly focus on adopting advanced RL techniques to train the ToD agents, while the design of the reward function is not well studied. This paper aims at answering the question of how to efficiently learn and leverage a reward function for training end-to-end (E2E) ToD agents. Specifically, we introduce two generalized objectives for reward-function learning, inspired by the classical learning-to-rank literature. Further, we utilize the learned reward function to guide the training of the E2E ToD agent. With the proposed techniques, we achieve competitive results on the E2E response-generation task on the Multiwoz 2.0 dataset. Source code and checkpoints are publicly released at https://github.com/Shentao-YANG/Fantastic_Reward_ICLR2023.

arxiv情報

著者 Yihao Feng,Shentao Yang,Shujian Zhang,Jianguo Zhang,Caiming Xiong,Mingyuan Zhou,Huan Wang
発行日 2023-02-20 22:10:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク