要約
対話政策計画における最近の進歩は、戦略設計、軌跡の獲得、効率的なトレーニングパラダイムに焦点を当て、事前定義された目標を達成するためのシステムエージェントポリシーを最適化することを強調しています。
ただし、これらのアプローチは、多くの場合、ユーザー特性の重要な役割を見落としています。ユーザー特性は、会話の検索や推奨事項などの実際のシナリオに不可欠であり、個性、好み、目標などの個々のユーザー特性に適応する必要があります。
このギャップに対処するために、まず、タスク固有のユーザーペルソナを利用して包括的な調査を実施し、多様なユーザー行動の下で対話ポリシー計画を体系的に評価します。
さまざまなタスクのリアルなユーザープロファイルを活用することにより、私たちの調査は、既存のアプローチの大きな制限を明らかにし、ユーザーに合わせたダイアログポリシー計画の必要性を強調しています。
この基盤の上に構築して、ユーザーにテイラルしたダイアログポリシープランニング(UDP)フレームワークを紹介します。これには、ユーザーの特性とフィードバックをモデル化するための本質的なユーザーワールドモデルが組み込まれています。
UDPは3つの段階で動作します。(1)拡散モデルを使用してユーザープロファイルを動的に推測するユーザーペルソナ。
(2)ユーザーの反応を予測するためにブラウンブリッジにインスパイアされた予想者をレバレッジして、ユーザーフィードバックを予測します。
(3)ユーザーにテイラルしたポリシー計画、これらの洞察を統合して応答戦略を最適化します。
堅牢なパフォーマンスを確保するために、トレーニング中に挑戦的なユーザーペルソナを優先する積極的な学習アプローチをさらに提案します。
コラボレーションおよび非随意の設定を含むベンチマークでの包括的な実験は、ユーザー固有の対話戦略を学習する際のUDPの有効性を示しています。
結果は、プロトコルのユーティリティを検証し、UDPの堅牢性、適応性、およびユーザー中心のダイアログシステムを前進させる可能性を強調します。
要約(オリジナル)
Recent advancements in dialogue policy planning have emphasized optimizing system agent policies to achieve predefined goals, focusing on strategy design, trajectory acquisition, and efficient training paradigms. However, these approaches often overlook the critical role of user characteristics, which are essential in real-world scenarios like conversational search and recommendation, where interactions must adapt to individual user traits such as personality, preferences, and goals. To address this gap, we first conduct a comprehensive study utilizing task-specific user personas to systematically assess dialogue policy planning under diverse user behaviors. By leveraging realistic user profiles for different tasks, our study reveals significant limitations in existing approaches, highlighting the need for user-tailored dialogue policy planning. Building on this foundation, we present the User-Tailored Dialogue Policy Planning (UDP) framework, which incorporates an Intrinsic User World Model to model user traits and feedback. UDP operates in three stages: (1) User Persona Portraying, using a diffusion model to dynamically infer user profiles; (2) User Feedback Anticipating, leveraging a Brownian Bridge-inspired anticipator to predict user reactions; and (3) User-Tailored Policy Planning, integrating these insights to optimize response strategies. To ensure robust performance, we further propose an active learning approach that prioritizes challenging user personas during training. Comprehensive experiments on benchmarks, including collaborative and non-collaborative settings, demonstrate the effectiveness of UDP in learning user-specific dialogue strategies. Results validate the protocol’s utility and highlight UDP’s robustness, adaptability, and potential to advance user-centric dialogue systems.
arxiv情報
著者 | Tao He,Lizi Liao,Ming Liu,Bing Qin |
発行日 | 2025-04-18 11:48:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google