LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors

要約

最近、大規模な事前訓練を受けた音声エンコーダと大規模な言語モデル(LLM)がリリースされました。これは、自動音声認識(ASR)を含むさまざまな音声言語処理タスクで最先端のパフォーマンスを示しています。
両方のモデルを効果的に組み合わせて、パフォーマンスを向上させるために、連続音声プロンプト、およびASRエラー補正が採用されています。
ただし、これらの方法は最適でないパフォーマンスが発生しやすいものであるか、柔軟性があります。
この論文では、ASR事後マトリックスを使用して音声エンコーダとLLMをブリッジする新しいパラダイム、LegoSLMを提案します。
音声エンコーダは、LLMの語彙を介してコネクショニストの時間的分類(CTC)後眼鏡を生成するように訓練されています。これは、LLM入力埋め込みの加重合計を計算することにより、擬似オーディオ埋め込みを再構築するために使用されます。
これらの埋め込みは、LLM入力空間にテキスト埋め込みと連結されています。
例として、パフォーマンスの良いUSMおよびGEMMAモデルを使用して、提案されているLEGOSLMメソッドがASRと音声翻訳タスクの両方で良好なパフォーマンスをもたらすことを示します。
USMをGEMMAモデルと接続することにより、8 MLSテストセットでUSM-CTCベースラインで平均49%WERRを取得できます。
訓練されたモデルは、GEMMAモデルの重みを微調整した後、スピーチエンコーダーをゼロショットでLLMと組み合わせることができます。
さらに、ソフトマックス温度を使用してUSMとLLMのデコード時間の影響を制御することを提案します。これは、ドメイン適応の有効性を示しています。

要約(オリジナル)

Recently, large-scale pre-trained speech encoders and Large Language Models (LLMs) have been released, which show state-of-the-art performance on a range of spoken language processing tasks including Automatic Speech Recognition (ASR). To effectively combine both models for better performance, continuous speech prompts, and ASR error correction have been adopted. However, these methods are prone to suboptimal performance or are inflexible. In this paper, we propose a new paradigm, LegoSLM, that bridges speech encoders and LLMs using the ASR posterior matrices. The speech encoder is trained to generate Connectionist Temporal Classification (CTC) posteriors over the LLM vocabulary, which are used to reconstruct pseudo-audio embeddings by computing a weighted sum of the LLM input embeddings. These embeddings are concatenated with text embeddings in the LLM input space. Using the well-performing USM and Gemma models as an example, we demonstrate that our proposed LegoSLM method yields good performance on both ASR and speech translation tasks. By connecting USM with Gemma models, we can get an average of 49% WERR over the USM-CTC baseline on 8 MLS testsets. The trained model also exhibits modularity in a range of settings — after fine-tuning the Gemma model weights, the speech encoder can be switched and combined with the LLM in a zero-shot fashion. Additionally, we propose to control the decode-time influence of the USM and LLM using a softmax temperature, which shows effectiveness in domain adaptation.

arxiv情報

著者 Rao Ma,Tongzhou Chen,Kartik Audhkhasi,Bhuvana Ramabhadran
発行日 2025-05-16 15:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク