Connecting Speech Encoder and Large Language Model for ASR

要約

大規模言語モデル (LLM) の優れた機能と多用途性により、自動音声認識 (ASR) への注目が高まっており、音声エンコーダを LLM に接続することによって統合された ASR モデルを構築しようとするいくつかの先駆的な研究が行われています。
この論文では、完全接続層、マルチヘッド クロスアテンション、Q フォーマーなど、コネクタとして一般的に使用される 3 つの構造の比較研究を示します。
Whisper モデル シリーズの音声エンコーダと、さまざまなモデル サイズの Vicuna モデル シリーズの LLM が研究されました。
実験は、一般的に使用される LibriSpeech、Common Voice、および GigaSpeech データセットで実行され、Q-Former を備えた LLM は、他のコネクタ構造を備えた LLM よりも一貫して大幅なワード エラー レート (WER) の削減を実証しました。
Q-Former ベースの LLM は、ドメイン外のデータセットに対して適切に一般化できます。Switchboard からのドメイン内トレーニング データを使用せずに、Eval2000 テスト セットで Whisper ベースライン ASR モデルと比較して 12% の相対的な WER 削減が達成されました。
さらに、新しいセグメント レベルの Q-Former が提案されており、LLM がエンコーダの制限を超える継続時間の音声セグメントを認識できるようになります。これにより、90 秒の長さの音声データで他のコネクタ構造と比べて相対的に WER が 17% 削減されます。

要約(オリジナル)

The impressive capability and versatility of large language models (LLMs) have aroused increasing attention in automatic speech recognition (ASR), with several pioneering studies attempting to build integrated ASR models by connecting a speech encoder with an LLM. This paper presents a comparative study of three commonly used structures as connectors, including fully connected layers, multi-head cross-attention, and Q-Former. Speech encoders from the Whisper model series as well as LLMs from the Vicuna model series with different model sizes were studied. Experiments were performed on the commonly used LibriSpeech, Common Voice, and GigaSpeech datasets, where the LLMs with Q-Formers demonstrated consistent and considerable word error rate (WER) reductions over LLMs with other connector structures. Q-Former-based LLMs can generalise well to out-of-domain datasets, where 12% relative WER reductions over the Whisper baseline ASR model were achieved on the Eval2000 test set without using any in-domain training data from Switchboard. Moreover, a novel segment-level Q-Former is proposed to enable LLMs to recognise speech segments with a duration exceeding the limitation of the encoders, which results in 17% relative WER reductions over other connector structures on 90-second-long speech data.

arxiv情報

著者 Wenyi Yu,Changli Tang,Guangzhi Sun,Xianzhao Chen,Tian Tan,Wei Li,Lu Lu,Zejun Ma,Chao Zhang
発行日 2023-09-26 11:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク