Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study

要約

このペーパーでは、書き起こしの精度を向上させるために、大規模言語モデル (LLM) を自動音声認識 (ASR) システムに統合する方法について検討します。
コンテキスト内学習機能と命令に従う動作を備えた LLM の高度化は、自然言語処理 (NLP) の分野で大きな注目を集めています。
私たちの主な焦点は、LLM のインコンテキスト学習機能を使用して ASR システムのパフォーマンスを向上させる可能性を調査することです。ASR システムは現在、周囲の騒音、話者のアクセント、複雑な言語コンテキストなどの課題に直面しています。
私たちは Aishell-1 と LibriSpeech データセットを使用し、LLM 機能のベンチマークとして機能する ChatGPT と GPT-4 を使用して調査を設計しました。
残念ながら、私たちの最初の実験では有望な結果は得られませんでした。これは、ASR アプリケーションで LLM のインコンテキスト学習を活用することが複雑であることを示しています。
さまざまな設定とモデルを使用してさらに調査を行ったにもかかわらず、LLM からの修正された文では単語誤り率 (WER) が高くなることが多く、音声アプリケーションにおける LLM の限界が示されました。
この論文では、これらの実験、その結果、および影響について詳細に概要を説明し、LLM のインコンテキスト学習機能を使用して音声認識文字起こしの潜在的なエラーを修正することは、現段階では依然として困難な作業であることを証明します。

要約(オリジナル)

This paper explores the integration of Large Language Models (LLMs) into Automatic Speech Recognition (ASR) systems to improve transcription accuracy. The increasing sophistication of LLMs, with their in-context learning capabilities and instruction-following behavior, has drawn significant attention in the field of Natural Language Processing (NLP). Our primary focus is to investigate the potential of using an LLM’s in-context learning capabilities to enhance the performance of ASR systems, which currently face challenges such as ambient noise, speaker accents, and complex linguistic contexts. We designed a study using the Aishell-1 and LibriSpeech datasets, with ChatGPT and GPT-4 serving as benchmarks for LLM capabilities. Unfortunately, our initial experiments did not yield promising results, indicating the complexity of leveraging LLM’s in-context learning for ASR applications. Despite further exploration with varied settings and models, the corrected sentences from the LLMs frequently resulted in higher Word Error Rates (WER), demonstrating the limitations of LLMs in speech applications. This paper provides a detailed overview of these experiments, their results, and implications, establishing that using LLMs’ in-context learning capabilities to correct potential errors in speech recognition transcriptions is still a challenging task at the current stage.

arxiv情報

著者 Zeping Min,Jinbo Wang
発行日 2023-07-13 02:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク