Is one brick enough to break the wall of spoken dialogue state tracking?

要約

タスク指向対話 (TOD) システムでは、ユーザーの要求に対するシステムの理解 (\textit{別名: 対話状態の追跡) を正しく更新することが、スムーズな対話の鍵となります。
従来、TOD システムは、ユーザーの発話の転写、重要な概念の意味抽出、および以前に特定された概念による文脈化の 3 つのステップでこの更新を実行します。
このようなカスケード アプローチでは、カスケード エラーや個別の最適化が発生します。
エンドツーエンドのアプローチは、ターンレベルのセマンティック抽出ステップまで有用であることが証明されています。
この論文はさらに一歩進んで、(1) 完全にニューラル音声による DST の新しいアプローチ、(2) 最先端のカスケード アプローチとの詳細な比較、および (3) より良いコンテキスト伝播に向けた手段を提供します。
私たちの研究は、共同最適化されたアプローチが、特にオーディオ ネイティブ設定において、対話状態追跡 (DST) などのコンテキストに依存するタスクにも競争力があることを強調しています。
DST システムにおけるコンテキストの伝播は、以前のコンテキスト固有の不確実性を考慮したトレーニング手順から恩恵を受ける可能性があります。

要約(オリジナル)

In Task-Oriented Dialogue (TOD) systems, correctly updating the system’s understanding of the user’s requests (\textit{a.k.a} dialogue state tracking) is key to a smooth interaction. Traditionally, TOD systems perform this update in three steps: transcription of the user’s utterance, semantic extraction of the key concepts, and contextualization with the previously identified concepts. Such cascade approaches suffer from cascading errors and separate optimization. End-to-End approaches have been proven helpful up to the turn-level semantic extraction step. This paper goes one step further and provides (1) a novel approach for completely neural spoken DST, (2) an in depth comparison with a state of the art cascade approach and (3) avenues towards better context propagation. Our study highlights that jointly-optimized approaches are also competitive for contextually dependent tasks, such as Dialogue State Tracking (DST), especially in audio native settings. Context propagation in DST systems could benefit from training procedures accounting for the previous’ context inherent uncertainty.

arxiv情報

著者 Lucas Druart,Valentin Vielzeuf,Yannick Estève
発行日 2024-07-01 07:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS, eess.SP パーマリンク