要約
積極的な対話は、大規模言語モデル (LLM) の時代における実践的かつ困難な対話の問題として機能します。LLM の積極性を向上させるには、対話ポリシーの計画が鍵となります。
既存の研究のほとんどは、さまざまなプロンプトスキームを使用して LLM の対話ポリシーの計画を可能にしたり、口頭 AI フィードバックで特定のケースを処理する際にこの機能を反復的に強化したりすることができます。
ただし、これらのアプローチは、凍結された LLM の政策計画能力によって制限されるか、新しいケースに移すのが困難です。
この研究では、PPDPP というプラグアンドプレイ対話ポリシー プランナーとしての調整可能な言語モデル プラグインを使用して、プロアクティブな対話の問題に対して LLM の戦略を立てるための新しい対話ポリシー計画パラダイムを導入します。
具体的には、利用可能な人間による注釈付きデータに対する教師あり微調整と、LLM ベースのセルフプレイ シミュレーションによって収集された動的インタラクション データを使用した目標指向の AI フィードバックからの強化学習を容易にする新しいトレーニング フレームワークを開発します。
このように、LLM を利用した対話エージェントは、トレーニング後にさまざまなケースに一般化できるだけでなく、学習したプラグインを置き換えるだけでさまざまなアプリケーションにも適用できます。
さらに、対話型環境下での対話システムの政策立案能力を評価することを提案します。
実験結果は、PPDPP が、交渉、感情的サポート、個別指導の対話を含む 3 つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して大幅に上回るパフォーマンスを示すことを示しています。
要約(オリジナル)
Proactive dialogues serve as a practical yet challenging dialogue problem in the era of large language models (LLMs), where the dialogue policy planning is the key to improving the proactivity of LLMs. Most existing studies enable the dialogue policy planning of LLMs using various prompting schemes or iteratively enhance this capability in handling the given case with verbal AI feedback. However, these approaches are either bounded by the policy planning capability of the frozen LLMs or hard to be transferred to new cases. In this work, we introduce a new dialogue policy planning paradigm to strategize LLMs for proactive dialogue problems with a tunable language model plug-in as a plug-and-play dialogue policy planner, named PPDPP. Specifically, we develop a novel training framework to facilitate supervised fine-tuning over available human-annotated data as well as reinforcement learning from goal-oriented AI feedback with dynamic interaction data collected by the LLM-based self-play simulation. In this manner, the LLM-powered dialogue agent can not only be generalized to different cases after the training, but also be applicable to different applications by just substituting the learned plug-in. In addition, we propose to evaluate the policy planning capability of dialogue systems under the interactive setting. Experimental results demonstrate that PPDPP consistently and substantially outperforms existing approaches on three different proactive dialogue applications, including negotiation, emotional support, and tutoring dialogues.
arxiv情報
著者 | Yang Deng,Wenxuan Zhang,Wai Lam,See-Kiong Ng,Tat-Seng Chua |
発行日 | 2024-03-11 08:30:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google