Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI


汎用の自動音声認識 (ASR) システムは、目標指向の対話では必ずしもうまく機能するとは限りません。
既存の ASR 修正方法は、以前のユーザー データまたは名前付きエンティティに依存しています。
以前のユーザー データを持たないタスクにも修正を拡張し、語彙や構文のバリエーションなどの言語的な柔軟性を示します。
私たちは、大規模な言語モデルを使用した新しいコンテキスト拡張と、目標指向の会話型 AI とそのタスクの対話状態からのコンテキスト情報を組み込んだランキング戦略を提案します。
私たちの方法では、(1) コンテキストとの語彙的および意味論的な類似性によって n-best ASR 仮説を​​ランク付けし、(2) ASR 仮説との音声対応によってコンテキストをランク付けします。
実際のユーザーを対象にホームセンターと料理の分野で評価したところ、精度と誤検知率を維持しながら、再現率と補正の F1 がそれ​​ぞれ 34% と 16% 向上しました。
補正方法が適切に機能し、誤検知による低下がなかった場合、ユーザーは 0.8 ~ 1 ポイント (5 点満点中) 高く評価しました。


General-purpose automatic speech recognition (ASR) systems do not always perform well in goal-oriented dialogue. Existing ASR correction methods rely on prior user data or named entities. We extend correction to tasks that have no prior user data and exhibit linguistic flexibility such as lexical and syntactic variations. We propose a novel context augmentation with a large language model and a ranking strategy that incorporates contextual information from the dialogue states of a goal-oriented conversational AI and its tasks. Our method ranks (1) n-best ASR hypotheses by their lexical and semantic similarity with context and (2) context by phonetic correspondence with ASR hypotheses. Evaluated in home improvement and cooking domains with real-world users, our method improves recall and F1 of correction by 34% and 16%, respectively, while maintaining precision and false positive rate. Users rated .8-1 point (out of 5) higher when our correction method worked properly, with no decrease due to false positives.


著者 Yuya Asano,Sabit Hassan,Paras Sharma,Anthony Sicilia,Katherine Atwell,Diane Litman,Malihe Alikhani
発行日 2025-01-10 17:35:06+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CL パーマリンク