Towards interfacing large language models with ASR systems using confidence measures and prompting

要約

大規模言語モデル (LLM) のパラメーター サイズとプロンプトによる対話などの機能が増大するにつれて、n ベスト リストの再スコアリングを超えた自動音声認識 (ASR) システムとのインターフェースの新しい方法が開かれます。
この研究では、LLM を使用した ASR 転写物の事後補正を調査します。
正確であると思われるトランスクリプトにエラーが混入することを避けるために、信頼度に基づいたさまざまなフィルタリング方法を提案します。
私たちの結果は、これによって競争力の低い ASR システムのパフォーマンスを向上できることを示しています。

要約(オリジナル)

As large language models (LLMs) grow in parameter size and capabilities, such as interaction through prompting, they open up new ways of interfacing with automatic speech recognition (ASR) systems beyond rescoring n-best lists. This work investigates post-hoc correction of ASR transcripts with LLMs. To avoid introducing errors into likely accurate transcripts, we propose a range of confidence-based filtering methods. Our results indicate that this can improve the performance of less competitive ASR systems.

arxiv情報

著者 Maryam Naderi,Enno Hermann,Alexandre Nanchen,Sevada Hovsepyan,Mathew Magimai. -Doss
発行日 2024-07-31 08:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク