Is one brick enough to break the wall of spoken dialogue state tracking?

要約

タスク指向対話 (TOD) システムでは、ユーザーのニーズに対するシステムの理解 (別名対話状態の追跡) を正しく更新することが、スムーズな対話の鍵となります。
従来、TOD システムは、ユーザーの発話の転写、重要な概念の意味抽出、および以前に特定された概念による文脈化の 3 つのステップでこの更新を実行します。
このようなカスケード アプローチでは、カスケード エラーや個別の最適化が発生します。
エンドツーエンドのアプローチは、セマンティック抽出ステップに至るまで有用であることが証明されています。
この論文では、(1) 最先端のカスケード アプローチ、(2) ルールベースのコンテキスト化によるローカル E2E アプローチ、および (3) 完全なニューラル音声対話状態追跡の 3 つのアプローチを比較することにより、完全にニューラルな音声対話状態追跡への道をさらに一歩進めます。
神経的なアプローチ。

要約(オリジナル)

In Task-Oriented Dialogue (TOD) systems, correctly updating the system’s understanding of the user’s needs (a.k.a dialogue state tracking) is key to a smooth interaction. Traditionally, TOD systems perform this update in three steps: transcription of the user’s utterance, semantic extraction of the key concepts, and contextualization with the previously identified concepts. Such cascade approaches suffer from cascading errors and separate optimization. End-to-End approaches have been proved helpful up to the semantic extraction step. This paper goes one step further paving the path towards completely neural spoken dialogue state tracking by comparing three approaches: (1) a state of the art cascade approach, (2) a locally E2E approach with rule-based contextualization and (3) a completely neural approach.

arxiv情報

著者 Lucas Druart,Valentin Vielzeuf,Yannick Estève
発行日 2023-12-05 08:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS, eess.SP パーマリンク