要約
従来、タスク指向対話 (TOD) モデルの評価にはオフライン データセットが使用されてきました。
これらのデータセットにはコンテキスト認識が欠けているため、会話システムのベンチマークとしては最適とは言えません。
対照的に、コンテキスト認識型のユーザー エージェントは、人間の会話の変動性と予測不可能性をシミュレートできるため、評価者としてより優れた選択肢となります。
これまでの研究では、ユーザー エージェントを開発するために大規模言語モデル (LLM) が利用されてきました。
私たちの仕事は、LLM を使用して TOD システムを評価するためのユーザー エージェントを作成することでこれに基づいています。
これには、LLM のプロンプト、コンテキスト内の例をガイダンスとして使用すること、およびユーザーの目標状態の追跡が含まれます。
ユーザー エージェントの多様性とタスク完了メトリクスを評価したところ、より適切なプロンプトを使用するとパフォーマンスが向上することがわかりました。
さらに、この動的フレームワーク内で TOD モデルを自動評価するための方法論を提案します。
要約(オリジナル)
Traditionally, offline datasets have been used to evaluate task-oriented dialogue (TOD) models. These datasets lack context awareness, making them suboptimal benchmarks for conversational systems. In contrast, user-agents, which are context-aware, can simulate the variability and unpredictability of human conversations, making them better alternatives as evaluators. Prior research has utilized large language models (LLMs) to develop user-agents. Our work builds upon this by using LLMs to create user-agents for the evaluation of TOD systems. This involves prompting an LLM, using in-context examples as guidance, and tracking the user-goal state. Our evaluation of diversity and task completion metrics for the user-agents shows improved performance with the use of better prompts. Additionally, we propose methodologies for the automatic evaluation of TOD models within this dynamic framework.
arxiv情報
著者 | Taaha Kazi,Ruiliang Lyu,Sizhe Zhou,Dilek Hakkani-Tur,Gokhan Tur |
発行日 | 2024-11-15 06:05:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google