Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks

要約

音声言語理解 (SLU) の分野では、従来の書き言葉の代わりに音声を書き起こした大規模言語モデル (LLM) を提供することで、多数の自然言語理解 (NLU) 方法論が採用されてきました。
実際のシナリオでは、LLM への入力前に、自動音声認識 (ASR) システムが出力トランスクリプト仮説を生成しますが、固有のエラーにより後続の SLU タスクが低下する可能性があります。
ここでは、音声のあいまいさをカプセル化し、SLU の結果を向上させることを目的として、最上位の仮説のみに依存するのではなく、ASR システムの格子出力を利用する方法を紹介します。
口頭での質問応答と意図の分類を対象としたコンテキスト内学習の実験では、格子からの単語混同ネットワークの助けを借りて、ノイズの多い音声トランスクリプトに対する LLM の回復力が強調され、最上位の ASR 仮説とオラクルの上限の使用との間の SLU パフォーマンスのギャップが埋められます。
さらに、さまざまな ASR パフォーマンス条件に対する LLM の堅牢性を詳しく調べ、最も影響力があることが判明しているコンテキスト内学習の側面を精査します。

要約(オリジナル)

In the realm of spoken language understanding (SLU), numerous natural language understanding (NLU) methodologies have been adapted by supplying large language models (LLMs) with transcribed speech instead of conventional written text. In real-world scenarios, prior to input into an LLM, an automated speech recognition (ASR) system generates an output transcript hypothesis, where inherent errors can degrade subsequent SLU tasks. Here we introduce a method that utilizes the ASR system’s lattice output instead of relying solely on the top hypothesis, aiming to encapsulate speech ambiguities and enhance SLU outcomes. Our in-context learning experiments, covering spoken question answering and intent classification, underline the LLM’s resilience to noisy speech transcripts with the help of word confusion networks from lattices, bridging the SLU performance gap between using the top ASR hypothesis and an oracle upper bound. Additionally, we delve into the LLM’s robustness to varying ASR performance conditions and scrutinize the aspects of in-context learning which prove the most influential.

arxiv情報

著者 Kevin Everson,Yile Gu,Huck Yang,Prashanth Gurunath Shivakumar,Guan-Ting Lin,Jari Kolehmainen,Ivan Bulyko,Ankur Gandhe,Shalini Ghosh,Wael Hamza,Hung-yi Lee,Ariya Rastrow,Andreas Stolcke
発行日 2024-01-05 17:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク