Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets

要約

大規模な言語モデルは、タスクと知識のユーザー要求に応答して、さまざまな設定で人間のような会話を実行できます。
ただし、LLMを使用して実装された既存の会話エージェントは、条件付きロジックを備えた指示に従って、さまざまなソースからの知識を統合することに従って、幻覚と闘うことがよくあります。
これらの欠点は、エージェントの有効性を妥協し、展開に不適切にします。
これらの課題に対処するために、知識集約型のタスク指向の会話エージェントを作成するためのプログラム可能なフレームワークであるGenieを紹介します。
Genieは、関係する相互作用を処理し、複雑なクエリに答えることができます。
LLMSとは異なり、高度なダイアログ状態管理を通じて信頼できる根拠のある応答を提供し、宣言的な仕様であるGenie Worksheetを介して制御可能なエージェントポリシーをサポートします。
これは、開発者がサポートするポリシーを実装するアルゴリズムランタイムシステムを通じて達成され、LLMSを(1)簡潔な会話履歴を使用してユーザー入力を解析し、(2)提供されたコンテキストに応じて応答を生成します。
Genieで構築されたエージェントは、複雑なロジックダイアログデータセットでSOTAメソッドを上回ります。
私たちは、3つの実際のアプリケーションで62人の参加者とのユーザー調査を実施しました:Yelpのレストランの予約、および大学生のチケットの提出とコース登録。
GPT-4ターボを搭載したGenieエージェントは、機能呼び出しを伴うGPT-4ターボエージェントを上回り、3つの実際のタスクで目標完了率を21.8%から82.8%に改善しました。

要約(オリジナル)

Large Language Models can carry out human-like conversations in diverse settings, responding to user requests for tasks and knowledge. However, existing conversational agents implemented with LLMs often struggle with hallucination, following instructions with conditional logic, and integrating knowledge from different sources. These shortcomings compromise the agents’ effectiveness, rendering them unsuitable for deployment. To address these challenges, we introduce Genie, a programmable framework for creating knowledge-intensive task-oriented conversational agents. Genie can handle involved interactions and answer complex queries. Unlike LLMs, it delivers reliable, grounded responses through advanced dialogue state management and supports controllable agent policies via its declarative specification — Genie Worksheet. This is achieved through an algorithmic runtime system that implements the developer-supplied policy, limiting LLMs to (1) parse user input using a succinct conversational history, and (2) generate responses according to supplied context. Agents built with Genie outperform SOTA methods on complex logic dialogue datasets. We conducted a user study with 62 participants on three real-life applications: restaurant reservations with Yelp, as well as ticket submission and course enrollment for university students. Genie agents with GPT-4 Turbo outperformed the GPT-4 Turbo agents with function calling, improving goal completion rates from 21.8% to 82.8% across three real-world tasks.

arxiv情報

著者 Harshit Joshi,Shicheng Liu,James Chen,Robert Weigle,Monica S. Lam
発行日 2025-06-17 17:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PL パーマリンク