要約
対話システム技術競争 (DSTC) を通じて対話システムは目覚ましい進歩を遂げてきましたが、音声インターフェイスを備えた堅牢なタスク指向の対話システムを構築するには、依然として重要な課題の 1 つです。
書かれたコーパスを含むデータセットは豊富にありますが、音声対話を含むデータセットは非常に少ないため、進歩のほとんどはテキストベースの対話システムで行われています。
ただし、Siri や Alexa などの音声アシスタント システムからわかるように、成功を音声対話に移すことが実際的に重要です。
このペーパーでは、DSTC11 の音声認識対話システム テクノロジ チャレンジ トラックに参加し、非常に成功したモデルを構築するためのエンジニアリングの取り組みについて説明します。
私たちのモデルは 3 つの主要なモジュールで構成されています: (1) 音声とテキストの発話の間のギャップを埋めるための自動音声認識エラー修正、(2) スロットの説明を使用してスロットと値を推定するためのテキストベースの対話システム (D3ST)、
(3)スロット推定値の誤差を回復するための後処理。
私たちの実験では、テキストベースの対話状態トラッカーを音声対話コーパスに適応させるには、明示的な自動音声認識エラー修正モジュール、後処理、およびデータ拡張を使用することが重要であることがわかりました。
要約(オリジナル)
Although there have been remarkable advances in dialogue systems through the dialogue systems technology competition (DSTC), it remains one of the key challenges to building a robust task-oriented dialogue system with a speech interface. Most of the progress has been made for text-based dialogue systems since there are abundant datasets with written corpora while those with spoken dialogues are very scarce. However, as can be seen from voice assistant systems such as Siri and Alexa, it is of practical importance to transfer the success to spoken dialogues. In this paper, we describe our engineering effort in building a highly successful model that participated in the speech-aware dialogue systems technology challenge track in DSTC11. Our model consists of three major modules: (1) automatic speech recognition error correction to bridge the gap between the spoken and the text utterances, (2) text-based dialogue system (D3ST) for estimating the slots and values using slot descriptions, and (3) post-processing for recovering the error of the estimated slot value. Our experiments show that it is important to use an explicit automatic speech recognition error correction module, post-processing, and data augmentation to adapt a text-based dialogue state tracker for spoken dialogue corpora.
arxiv情報
著者 | Jaeseok Yoon,Seunghyun Hwang,Ran Han,Jeonguk Bang,Kee-Eung Kim |
発行日 | 2024-01-09 08:27:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google