Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management

要約

強化学習 (RL) は、非近視眼的で、豊富な会話を行い、全体的なユーザー満足度を最大化する対話管理 (DM) エージェントの開発に大きな期待を寄せています。
RL と言語モデル (LM) の最近の開発にもかかわらず、RL を使用して会話型チャットボットを強化することは依然として困難です。その理由の 1 つは、RL では効果的に学習するためにオンライン探索が必要であるのに対して、新しい人間とボットの相互作用を収集するには費用がかかり、安全でない可能性があるためです。
この問題は、ほとんどの LM エージェントが単語レベルで応答を生成するため、これらのアルゴリズムが直面する組み合わせアクション スペースによって悪化します。
最近のMixture-of-Expert Language Models(MoE-LM)を活用する、対話計画に特化したさまざまなRLアルゴリズムを開発しています。これは、多様なセマンティクスをキャプチャし、さまざまな意図を反映した発話を生成し、マルチターンDMに適したモデルです。
.
MoE-LM構造を利用することにより、私たちの方法はアクションスペースのサイズを大幅に縮小し、RLベースのDMの有効性を向上させます。
生成された発話における意図の多様性と全体的な DM パフォーマンスに関して、その有効性を実証するために、オープン ドメインの対話でメソッドを評価します。

要約(オリジナル)

Reinforcement learning (RL) has shown great promise for developing dialogue management (DM) agents that are non-myopic, conduct rich conversations, and maximize overall user satisfaction. Despite recent developments in RL and language models (LMs), using RL to power conversational chatbots remains challenging, in part because RL requires online exploration to learn effectively, whereas collecting novel human-bot interactions can be expensive and unsafe. This issue is exacerbated by the combinatorial action spaces facing these algorithms, as most LM agents generate responses at the word level. We develop a variety of RL algorithms, specialized to dialogue planning, that leverage recent Mixture-of-Expert Language Models (MoE-LMs) — models that capture diverse semantics, generate utterances reflecting different intents, and are amenable for multi-turn DM. By exploiting MoE-LM structure, our methods significantly reduce the size of the action space and improve the efficacy of RL-based DM. We evaluate our methods in open-domain dialogue to demonstrate their effectiveness w.r.t.\ the diversity of intent in generated utterances and overall DM performance.

arxiv情報

著者 Dhawal Gupta,Yinlam Chow,Mohammad Ghavamzadeh,Craig Boutilier
発行日 2023-02-21 18:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク