要約
最近、大規模な言語モデル(LLM)が、ゼロショット学習シナリオの幅広い推論機能とパフォーマンスにより、タスク固有のダイアログエージェントのトレーニングに代わるものとして登場しています。
ただし、多くのLLMベースのダイアログシステムは、包括的なダイアログ目標に向けて計画するのに不足しているため、会話を適切に操縦することはできません。
さらに、これらのモデルは幻覚に苦しんでおり、ユーザーに与えられた情報の正しさが重要である法的ドメインや医療ドメインなど、機密性のあるドメインでの情報アクセスには適さないものです。
最近導入されたタスク会話ツリー検索(CTS)は、敏感なドメインでの幻覚を避けるためにダイアロググラフの使用を提案していますが、最先端のエージェントは、ダイアログ戦略に優れているにもかかわらず、強化学習(RL)ベースであり、長いトレーニング時間を必要とします。
このホワイトペーパーでは、ユーザーインタラクションの好みに基づいて関連するグラフノードを検索および剪定することにより、LLMSがドメイングラフを介してダイアログ計画をガイドする制御可能なCTSエージェント向けの新しいゼロショット方法を紹介します。
これらのエージェントは、シミュレーションで最先端のCTSエージェント($ p <0.0001 $;バーナードの正確なテスト)を大幅に上回ることを示します。
これは、利用可能なすべてのCTSドメインに一般化されます。
最後に、ユーザー評価を実行して野生でエージェントのパフォーマンスをテストし、最先端のRLベースのCTSエージェントと比較して、ポリシーが大幅に($ p <0.05 $; Barnard artice)がタスクサクセスを改善することを示しています。
要約(オリジナル)
Recently, Large Language Models (LLMs) have emerged as an alternative to training task-specific dialog agents, due to their broad reasoning capabilities and performance in zero-shot learning scenarios. However, many LLM-based dialog systems fall short in planning towards an overarching dialog goal and therefore cannot steer the conversation appropriately. Furthermore, these models struggle with hallucination, making them unsuitable for information access in sensitive domains, such as legal or medical domains, where correctness of information given to users is critical. The recently introduced task Conversational Tree Search (CTS) proposes the use of dialog graphs to avoid hallucination in sensitive domains, however, state-of-the-art agents are Reinforcement Learning (RL) based and require long training times, despite excelling at dialog strategy. This paper introduces a novel zero-shot method for controllable CTS agents, where LLMs guide the dialog planning through domain graphs by searching and pruning relevant graph nodes based on user interaction preferences. We show that these agents significantly outperform state-of-the-art CTS agents ($p<0.0001$; Barnard Exact test) in simulation. This generalizes to all available CTS domains. Finally, we perform user evaluation to test the agent's performance in the wild, showing that our policy significantly ($p<0.05$; Barnard Exact) improves task-success compared to the state-of-the-art RL-based CTS agent.
arxiv情報
著者 | Dirk Väth,Ngoc Thang Vu |
発行日 | 2025-03-04 16:21:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google