DecoupledESC: Enhancing Emotional Support Generation via Strategy-Response Decoupled Preference Optimization

要約

感情的サポート会話(ESC)の最近の進歩により、監視付き微調整(SFT)を介して大規模な言語モデル(LLMS)を微調整することにより、感情的なサポート生成が改善されました。
ただし、一般的な心理的エラーは依然として続いています。
直接選好最適化(DPO)は、ペアワイズ優先学習を通じてこのようなエラーを減らすことに有望ですが、ESCタスクにおけるその有効性は2つの重要な課題によって制限されます。
(2)最適化のあいまいさ:バニラDPOをそのような絡み合ったペアワイズデータに適用すると、曖昧なトレーニング目標につながります。
これらの問題に対処するために、IPM-Prefdial Datasetを形成する高品質の優先データを構築するために、推論優先マイニング(IPM)を導入します。
このデータに基づいて、Grossの感情調節の拡張プロセスモデルに触発された分離されたESCフレームワークを提案します。これにより、ESCタスクが戦略計画と共感対応生成という2つの順次サブタスクに分解されます。
それぞれがSFTを介して訓練され、その後DPOによって強化され、心理的好みに合わせました。
広範な実験は、私たちの分離されたESCフレームワークがジョイント最適化ベースラインよりも優れていることを示しており、好みのバイアスを減らし、応答の品質を改善します。

要約(オリジナル)

Recent advances in Emotional Support Conversation (ESC) have improved emotional support generation by fine-tuning Large Language Models (LLMs) via Supervised Fine-Tuning (SFT). However, common psychological errors still persist. While Direct Preference Optimization (DPO) shows promise in reducing such errors through pairwise preference learning, its effectiveness in ESC tasks is limited by two key challenges: (1) Entangled data structure: Existing ESC data inherently entangles psychological strategies and response content, making it difficult to construct high-quality preference pairs; and (2) Optimization ambiguity: Applying vanilla DPO to such entangled pairwise data leads to ambiguous training objectives. To address these issues, we introduce Inferential Preference Mining (IPM) to construct high-quality preference data, forming the IPM-PrefDial dataset. Building upon this data, we propose a Decoupled ESC framework inspired by Gross’s Extended Process Model of Emotion Regulation, which decomposes the ESC task into two sequential subtasks: strategy planning and empathic response generation. Each was trained via SFT and subsequently enhanced by DPO to align with the psychological preference. Extensive experiments demonstrate that our Decoupled ESC framework outperforms joint optimization baselines, reducing preference bias and improving response quality.

arxiv情報

著者 Chao Zhang,Xin Shi,Xueqiao Zhang,Yifan Zhu,Yi Yang,Yawei Luo
発行日 2025-05-22 17:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク