The timing bottleneck: Why timing and overlap are mission-critical for conversational user interfaces, speech recognition and dialogue systems


音声認識は、純粋なモノロジック オーディオではうまく機能しますが、オープンエンドのインタラクティブ設定における実際の使用例では、依然として多くの課題が存在します。
私たちは、対話システムにとってタイミングが極めて重要であると主張し、5 つの主要な商用 ASR システムの会話および多言語サポートを評価します。
私たちは、6 つの言語の自然会話データの単語誤り率が依然としてひどいこと、そしてその重複が依然として重要な課題であることを発見しました (研究 1)。
これは特に会話中の単語の認識 (研究 2) に影響を与え、その結果、下流の意図認識 (研究 3) に悲惨な結果をもたらします。
私たちの調査結果は、会話型 ASR の現状を評価し、多次元エラー分析と評価に貢献し、堅牢な対話型音声テクノロジーを構築する上で最も注意が必要な現象を特定するのに役立ちます。


Speech recognition systems are a key intermediary in voice-driven human-computer interaction. Although speech recognition works well for pristine monologic audio, real-life use cases in open-ended interactive settings still present many challenges. We argue that timing is mission-critical for dialogue systems, and evaluate 5 major commercial ASR systems for their conversational and multilingual support. We find that word error rates for natural conversational data in 6 languages remain abysmal, and that overlap remains a key challenge (study 1). This impacts especially the recognition of conversational words (study 2), and in turn has dire consequences for downstream intent recognition (study 3). Our findings help to evaluate the current state of conversational ASR, contribute towards multidimensional error analysis and evaluation, and identify phenomena that need most attention on the way to build robust interactive speech technologies.


著者 Andreas Liesenfeld,Alianda Lopez,Mark Dingemanse
発行日 2023-07-28 11:38:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク