Large Language Models as User-Agents for Evaluating Task-Oriented-Dialogue Systems

要約

従来、タスク指向対話 (TOD) モデルの評価にはオフライン データセットが使用されてきました。
これらのデータセットにはコンテキスト認識が欠けているため、会話システムのベンチマークとしては最適とは言えません。
対照的に、コンテキスト認識型のユーザー エージェントは、人間の会話の変動性と予測不可能性をシミュレートできるため、評価者としてより優れた選択肢となります。
これまでの研究では、ユーザー エージェントを開発するために大規模言語モデル (LLM) が利用されてきました。
私たちの仕事は、LLM を使用して TOD システムを評価するためのユーザー エージェントを作成することでこれに基づいています。
これには、LLM のプロンプト、コンテキスト内の例をガイダンスとして使用すること、およびユーザーの目標状態の追跡が含まれます。
ユーザー エージェントの多様性とタスク完了メトリクスを評価したところ、より適切なプロンプトを使用するとパフォーマンスが向上することがわかりました。
さらに、この動的フレームワーク内で TOD モデルを自動評価するための方法論を提案します。

要約(オリジナル)

Traditionally, offline datasets have been used to evaluate task-oriented dialogue (TOD) models. These datasets lack context awareness, making them suboptimal benchmarks for conversational systems. In contrast, user-agents, which are context-aware, can simulate the variability and unpredictability of human conversations, making them better alternatives as evaluators. Prior research has utilized large language models (LLMs) to develop user-agents. Our work builds upon this by using LLMs to create user-agents for the evaluation of TOD systems. This involves prompting an LLM, using in-context examples as guidance, and tracking the user-goal state. Our evaluation of diversity and task completion metrics for the user-agents shows improved performance with the use of better prompts. Additionally, we propose methodologies for the automatic evaluation of TOD models within this dynamic framework.

arxiv情報

著者 Taaha Kazi,Ruiliang Lyu,Sizhe Zhou,Dilek Hakkani-Tur,Gokhan Tur
発行日 2024-11-15 06:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク