JoTR: A Joint Transformer and Reinforcement Learning Framework for Dialog Policy Learning

要約

対話政策学習(DPL)は、対話モデリングの重要な要素である。その主な役割は、一般に「対話アクション」と呼ばれる適切な抽象的応答を決定することである。従来のDPL手法では、コーパスから抽出したあらかじめ定義されたアクション候補を用いて、これを逐次的な決定問題として扱ってきた。しかし、このような不完全な候補は、応答の多様性を著しく制限し、エッジケース(極端な操作パラメータでのみ発生するシナリオ)を扱う際の課題となる。これらの限界に対処するために、我々は新しいフレームワークJoTRを導入する。このフレームワークは、柔軟な対話アクションを生成するために、テキストからテキストへの変換器(Transformer)ベースのモデルを活用するという点でユニークである。従来の方法とは異なり、JoTRはアクションテンプレートを必要とせず、より動的で適応性のある対話アクション生成を可能にする単語レベルのポリシーを定式化する。この設定により、応答の多様性が向上し、エッジケースを効果的に処理するシステムの能力が向上する。さらに、JoTRは、単語レベルの対話方針を効率的に微調整するために、報酬形成機構を備えた強化学習を採用しており、これによりモデルは対話から学習し、時間の経過とともに性能が向上する。我々は、JoTRの有効性を評価するために、JoTRの広範な評価を行った。我々の広範な評価により、JoTRは2つのベンチマーク対話モデリングタスクにおいて、ユーザシミュレータと人間評価者の両方による評価で、最先端の性能を達成することが示された。

要約(オリジナル)

Dialogue policy learning (DPL) is a crucial component of dialogue modelling. Its primary role is to determine the appropriate abstract response, commonly referred to as the ‘dialogue action’. Traditional DPL methodologies have treated this as a sequential decision problem, using pre-defined action candidates extracted from a corpus. However, these incomplete candidates can significantly limit the diversity of responses and pose challenges when dealing with edge cases, which are scenarios that occur only at extreme operating parameters. To address these limitations, we introduce a novel framework, JoTR. This framework is unique as it leverages a text-to-text Transformer-based model to generate flexible dialogue actions. Unlike traditional methods, JoTR formulates a word-level policy that allows for a more dynamic and adaptable dialogue action generation, without the need for any action templates. This setting enhances the diversity of responses and improves the system’s ability to handle edge cases effectively. In addition, JoTR employs reinforcement learning with a reward-shaping mechanism to efficiently finetune the word-level dialogue policy, which allows the model to learn from its interactions, improving its performance over time. We conducted an extensive evaluation of JoTR to assess its effectiveness. Our extensive evaluation shows that JoTR achieves state-of-the-art performance on two benchmark dialogue modelling tasks, as assessed by both user simulators and human evaluators.

arxiv情報

著者 Wai-Chung Kwan,Huimin Wang,Hongru Wang,Zezhong Wang,Xian Wu,Yefeng Zheng,Kam-Fai Wong
発行日 2023-09-01 03:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク