要約
タスク指向対話 (TOD) システムは、対話型の対話を通じて特定の目標を達成することを目的としています。
このようなタスクには通常、特定のワークフローに従うこと、つまり一連のアクションを特定の順序で実行することが含まれます。
これまでの研究は、過去のアクションを条件付ける教師あり学習方法に焦点を当てていましたが、目的のワークフローへの準拠を明示的に最適化するものではありませんでした。
この論文では、特定のワークフローに合わせた対話応答を生成するための、強化学習 (RL) に基づく新しいフレームワークを提案します。
私たちのフレームワークは、生成された応答が指定されたアクションをどの程度実行するかを評価するために設計された指標である ComplianceScorer と、インタラクティブなサンプリング手法を利用した RL 最適化プロセスとの組み合わせで構成されています。
私たちは、2 つの TOD データセット、Action-Based Conversations Dataset (ABCD) (Chen et al., 2021a) と MultiWOZ 2.2 (Zang et al., 2020) に対するアプローチを、さまざまな自動化および人間による評価指標で評価します。
私たちの調査結果は、RL ベースのフレームワークがベースラインを上回り、自然かつ流暢な方法で表現されながら、意図されたワークフローに準拠する応答を生成するのに効果的であることを示しています。
要約(オリジナル)
Task-oriented dialogue (TOD) systems aim to achieve specific goals through interactive dialogue. Such tasks usually involve following specific workflows, i.e. executing a sequence of actions in a particular order. While prior work has focused on supervised learning methods to condition on past actions, they do not explicitly optimize for compliance to a desired workflow. In this paper, we propose a novel framework based on reinforcement learning (RL) to generate dialogue responses that are aligned with a given workflow. Our framework consists of ComplianceScorer, a metric designed to evaluate how well a generated response executes the specified action, combined with an RL opimization process that utilizes an interactive sampling technique. We evaluate our approach on two TOD datasets, Action-Based Conversations Dataset (ABCD) (Chen et al., 2021a) and MultiWOZ 2.2 (Zang et al., 2020) on a range of automated and human evaluation metrics. Our findings indicate that our RL-based framework outperforms baselines and is effective at enerating responses that both comply with the intended workflows while being expressed in a natural and fluent manner.
arxiv情報
著者 | Do June Min,Paloma Sodhi,Ramya Ramakrishnan |
発行日 | 2023-11-14 16:44:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google