Towards Automatic Evaluation of Task-Oriented Dialogue Flows

要約

タスク指向の対話システムは、有向非循環グラフとして表されることが多い、事前定義された会話スキーム (対話フロー) に依存します。
これらのフローは手動で設計することも、以前に記録した会話から自動的に生成することもできます。
ドメインの専門知識の違いや、以前の会話の異なるセットへの依存により、これらの対話フローは大幅に異なるグラフ構造で現れる可能性があります。
対話フローの重要性にもかかわらず、対話フローの品質を評価するための標準的な方法はありません。
FuDGE (Fuzzy Dialogue-Graph Edit Distance) を紹介します。これは、構造の複雑さと会話データの表現範囲を評価することで対話フローを評価する新しい指標です。
FuDGE は、個々の会話がフローとどの程度一致しているかを測定し、その結果、一連の会話がフロー全体でどの程度適切に表現されているかを測定します。
手動で構成されたフローと自動化技術によって生成されたフローに関する広範な実験を通じて、FuDGE とその評価フレームワークの有効性を実証します。
FuDGE は、対話フローを標準化および最適化することで、会話デザイナーと自動化技術がより高いレベルの効率と自動化を達成できるようにします。

要約(オリジナル)

Task-oriented dialogue systems rely on predefined conversation schemes (dialogue flows) often represented as directed acyclic graphs. These flows can be manually designed or automatically generated from previously recorded conversations. Due to variations in domain expertise or reliance on different sets of prior conversations, these dialogue flows can manifest in significantly different graph structures. Despite their importance, there is no standard method for evaluating the quality of dialogue flows. We introduce FuDGE (Fuzzy Dialogue-Graph Edit Distance), a novel metric that evaluates dialogue flows by assessing their structural complexity and representational coverage of the conversation data. FuDGE measures how well individual conversations align with a flow and, consequently, how well a set of conversations is represented by the flow overall. Through extensive experiments on manually configured flows and flows generated by automated techniques, we demonstrate the effectiveness of FuDGE and its evaluation framework. By standardizing and optimizing dialogue flows, FuDGE enables conversational designers and automated techniques to achieve higher levels of efficiency and automation.

arxiv情報

著者 Mehrnoosh Mirtaheri,Nikhil Varghese,Chandra Khatri,Amol Kelkar
発行日 2024-11-15 18:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク