Investigating Reinforcement Learning for Communication Strategies in a Task-Initiative Setting

要約

多くの会話領域では、システムがユーザーにニュアンスの異なる情報を提示する必要がある。そのようなシステムは、明確化の質問に対応し、誤解を修復するために、ユーザーの発言をフォローアップしなければならない。本研究では、この対話的戦略を参照コミュニケーションタスクにおいて探求する。シミュレーションを用いて、ユーザーの明確化戦略の関数として、最初の提示とその後のフォローアップの間のコミュニケーションのトレードオフを分析し、いくつかのベースライン戦略の性能を強化学習によって導き出された方針と比較する。我々は、最小限のデータ要件、説明可能な選択、強力な監査能力をもたらすが、幅広いユーザーモデルにわたって予測結果の損失がほとんどない、対話戦略のコヒーレンスベースの表現に驚くべき利点を見出した。

要約(オリジナル)

Many conversational domains require the system to present nuanced information to users. Such systems must follow up what they say to address clarification questions and repair misunderstandings. In this work, we explore this interactive strategy in a referential communication task. Using simulation, we analyze the communication trade-offs between initial presentation and subsequent followup as a function of user clarification strategy, and compare the performance of several baseline strategies to policies derived by reinforcement learning. We find surprising advantages to coherence-based representations of dialogue strategy, which bring minimal data requirements, explainable choices, and strong audit capabilities, but incur little loss in predicted outcomes across a wide range of user models.

arxiv情報

著者 Baber Khalid,Matthew Stone
発行日 2023-08-03 00:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク