Leveraging Large Language Models for Exploiting ASR Uncertainty

要約

大規模な言語モデルはさまざまな自然言語処理 (NLP) タスクに優れていますが、音声言語理解 (SLU) タスクで適切に実行するには、文字起こしに既製の自動音声認識 (ASR) システムに依存する必要があります。
内蔵の音声モダリティが装備されている必要があります。
この研究では、SLU タスクに対する LLM の精度が、音声入力に対する固定 ASR システムの精度によって制限される前者のシナリオに焦点を当てています。
具体的には、高い単語誤り率により、発話された意図を理解する LLM の能力が制限される可能性がある、発話意図の分類タスクに取り組みます。
導入コストに関係なく、複雑なアーキテクチャや特殊なアーキテクチャを設計して高い精度を追求するのではなく、基盤となる ASR と LLM を大幅に変更せずにどこまでできるかを追求します。ASR と LLM は、複数の無関係なタスクで共有される可能性があります。
この目的を達成するために、エラーが発生しやすい 1-best 仮説だけではなく、ASR 仮説の n-best リストを LLM に要求することを提案します。
N ベスト リストの概念を LLM に説明するためのプロンプト エンジニアリングを検討します。
続いて、ダウンストリーム タスクでの低ランク アダプターの微調整が行われます。
n ベスト リストを使用した私たちのアプローチは、デバイス指向の音声検出タスクやキーワード スポッティング タスクでも効果的であることが証明されており、n ベスト リスト プロンプトを使用するシステムは 1 ベスト ASR 仮説を​​使用するシステムよりも優れています。
これにより、音声ベースのアプリケーション向けに LLM を介して ASR の不確実性を利用する効率的な方法への道が開かれます。

要約(オリジナル)

While large language models excel in a variety of natural language processing (NLP) tasks, to perform well on spoken language understanding (SLU) tasks, they must either rely on off-the-shelf automatic speech recognition (ASR) systems for transcription, or be equipped with an in-built speech modality. This work focuses on the former scenario, where LLM’s accuracy on SLU tasks is constrained by the accuracy of a fixed ASR system on the spoken input. Specifically, we tackle speech-intent classification task, where a high word-error-rate can limit the LLM’s ability to understand the spoken intent. Instead of chasing a high accuracy by designing complex or specialized architectures regardless of deployment costs, we seek to answer how far we can go without substantially changing the underlying ASR and LLM, which can potentially be shared by multiple unrelated tasks. To this end, we propose prompting the LLM with an n-best list of ASR hypotheses instead of only the error-prone 1-best hypothesis. We explore prompt-engineering to explain the concept of n-best lists to the LLM; followed by the finetuning of Low-Rank Adapters on the downstream tasks. Our approach using n-best lists proves to be effective on a device-directed speech detection task as well as on a keyword spotting task, where systems using n-best list prompts outperform those using 1-best ASR hypothesis; thus paving the way for an efficient method to exploit ASR uncertainty via LLMs for speech-based applications.

arxiv情報

著者 Pranay Dighe,Yi Su,Shangshang Zheng,Yunshu Liu,Vineet Garg,Xiaochuan Niu,Ahmed Tewfik
発行日 2023-09-12 16:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS パーマリンク