要約
ユーザーの状況や感情を理解し、共感的に応答することを目的とした共感応答生成は、人間らしい対話システムを構築する上で重要です。
従来のアプローチは通常、トレーニング中の最適化目標として最尤推定を使用しますが、生成された応答とターゲットの応答の間の共感レベルを調整することができません。
この目的を達成するために、強化学習 (EmpRL) を使用した共感応答生成フレームワークを提案します。
このフレームワークは、効果的な共感報酬関数を開発し、強化学習を通じて期待される報酬を最大化することで共感的な反応を生成します。
EmpRL は、事前トレーニングされた T5 モデルをジェネレーターとして利用し、さらに微調整してポリシーを初期化します。
特定のコンテキスト内で生成された応答と対象の応答の間の共感レベルを調整するために、事前に設計され、事前に訓練された共感識別子を使用して、感情的な反応、解釈、探索という 3 つの共感コミュニケーション メカニズムを含む共感報酬関数が構築されます。
強化学習トレーニング中に、近接ポリシー最適化アルゴリズムを使用してポリシーを微調整し、共感的な応答を生成できるようにします。
自動評価と人間による評価の両方で、提案された EmpRL フレームワークが生成された応答の質を大幅に向上させ、生成された応答と対象の応答の間の共感レベルの類似性が向上し、感情面と認知面の両方をカバーする共感的な応答が生成されることが実証されています。
要約(オリジナル)
Empathetic response generation, aiming to understand the user’s situation and feelings and respond empathically, is crucial in building human-like dialogue systems. Traditional approaches typically employ maximum likelihood estimation as the optimization objective during training, yet fail to align the empathy levels between generated and target responses. To this end, we propose an empathetic response generation framework using reinforcement learning (EmpRL). The framework develops an effective empathy reward function and generates empathetic responses by maximizing the expected reward through reinforcement learning. EmpRL utilizes the pre-trained T5 model as the generator and further fine-tunes it to initialize the policy. To align the empathy levels between generated and target responses within a given context, an empathy reward function containing three empathy communication mechanisms — emotional reaction, interpretation, and exploration — is constructed using pre-designed and pre-trained empathy identifiers. During reinforcement learning training, the proximal policy optimization algorithm is used to fine-tune the policy, enabling the generation of empathetic responses. Both automatic and human evaluations demonstrate that the proposed EmpRL framework significantly improves the quality of generated responses, enhances the similarity in empathy levels between generated and target responses, and produces empathetic responses covering both affective and cognitive aspects.
arxiv情報
著者 | Hui Ma,Bo Zhang,Bo Xu,Jian Wang,Hongfei Lin,Xiao Sun |
発行日 | 2024-12-12 12:52:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google