要約
大型言語モデル(LLM)は、チャットボットまたはAIアシスタントで使用され、人間のユーザーとの会話を行います。
このようなアプリケーションでは、会話の品質(ユーザーエンゲージメント、安全性など)は重要であり、会話の終わりにしか正確に知られていません。
予想される品質を最大化するために、会話内の確率的遷移に関する会話計画の理由は、各ターンで最適なLLM応答を選択します。
既存のシミュレーションベースの会話計画アルゴリズムは通常、将来の会話を毎ターンで多数のLLMクエリをシミュレートすることにより、最適な応答を選択します。
ただし、このプロセスは非常に時間がかかるため、リアルタイムの会話には非現実的です。
このペーパーでは、会話計画を効率的に実行するために会話の密なセマンティック表現を活用する改善された効率(範囲)を備えたセマンティックスペース会話計画と呼ばれる新しいアプローチを紹介します。
特に、Scopeは、会話セマンティクスの確率的遷移と、それに関連する報酬をモデル化し、セマンティックスペース内で完全に計画するようにします。
これにより、シミュレーションに追加のLLMクエリを必要とせずに、会話ごとに最適なLLM応答を選択できます。
その結果、Scopeは、現実世界で見られるさまざまな会話スターターと2つの報酬機能に適用されると、従来のシミュレーションベースの計画アルゴリズムよりも70倍高速な会話計画を実行できますが、実際の計画予算内でより高い報酬を達成できます。
私たちのコードは、https://github.com/chenzhiliang94/convo-plan-scopeにあります。
要約(オリジナル)
Large language models (LLMs) are used in chatbots or AI assistants to hold conversations with a human user. In such applications, the quality (e.g., user engagement, safety) of a conversation is important and can only be exactly known at the end of the conversation. To maximize its expected quality, conversation planning reasons about the stochastic transitions within a conversation to select the optimal LLM response at each turn. Existing simulation-based conversation planning algorithms typically select the optimal response by simulating future conversations with a large number of LLM queries at every turn. However, this process is extremely time-consuming and hence impractical for real-time conversations. This paper presents a novel approach called Semantic space COnversation Planning with improved Efficiency (SCOPE) that exploits the dense semantic representation of conversations to perform conversation planning efficiently. In particular, SCOPE models the stochastic transitions in conversation semantics and their associated rewards to plan entirely within the semantic space. This allows us to select the optimal LLM response at every conversation turn without needing additional LLM queries for simulation. As a result, SCOPE can perform conversation planning 70 times faster than conventional simulation-based planning algorithms when applied to a wide variety of conversation starters and two reward functions seen in the real world, yet achieving a higher reward within a practical planning budget. Our code can be found at: https://github.com/chenzhiliang94/convo-plan-SCOPE.
arxiv情報
著者 | Zhiliang Chen,Xinyuan Niu,Chuan-Sheng Foo,Bryan Kian Hsiang Low |
発行日 | 2025-03-14 16:55:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google