An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

要約

機械学習の進歩により、自動音声認識 (ASR) を含むさまざまなテキストおよび音声処理タスクをエンドツーエンド (E2E) 方式で実行できるようになりました。
一般的な E2E アプローチでは大量のトレーニング データとリソースが必要となるため、最初からトレーニングするのではなく、事前トレーニングされた基盤モデルを活用することが注目を集めています。
ASR で事前にトレーニングされた音声モデルと言語モデルを使用する試みはこれまでにも行われてきましたが、そのほとんどはいずれかの使用に限定されています。
このペーパーでは、事前トレーニングされた音声表現モデルを E2E ASR 用の大規模言語モデル (LLM) と統合する可能性を検討します。
提案されたモデルは、LLM によって提供される膨大な知識を利用して、音声プロンプトとしての音声表現を介して自己回帰方式でテキスト トークンを生成することにより、E2E ASR を有効にします。
さらに、提案されたモデルには、推論の最適化やパラメーター効率の高いドメイン適応など、LLM 利用のための注目すべき開発を組み込むことができます。
実験結果は、提案されたモデルが最新の E2E ASR モデルに匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Advances in machine learning have made it possible to perform various text and speech processing tasks, including automatic speech recognition (ASR), in an end-to-end (E2E) manner. Since typical E2E approaches require large amounts of training data and resources, leveraging pre-trained foundation models instead of training from scratch is gaining attention. Although there have been attempts to use pre-trained speech and language models in ASR, most of them are limited to using either. This paper explores the potential of integrating a pre-trained speech representation model with a large language model (LLM) for E2E ASR. The proposed model enables E2E ASR by generating text tokens in an autoregressive manner via speech representations as speech prompts, taking advantage of the vast knowledge provided by the LLM. Furthermore, the proposed model can incorporate remarkable developments for LLM utilization, such as inference optimization and parameter-efficient domain adaptation. Experimental results show that the proposed model achieves performance comparable to modern E2E ASR models.

arxiv情報

著者 Yukiya Hono,Koh Mitsuda,Tianyu Zhao,Kentaro Mitsui,Toshiaki Wakatsuki,Kei Sawada
発行日 2023-12-06 18:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク