要約
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて比類のない有効性を実証しており、LLMと自動音声認識(ASR)の統合は主流のパラダイムになりつつある。この勢いに乗って、我々の研究では、大規模なオープンソースの中国語データセットを用いて、このパラダイムの詳細な検証を行います。具体的には、音声エンコーダ、LLM、プロジェクタモジュールの様々な構成が、音声基礎エンコーダ-LLM ASRパラダイムに与える影響を評価することを目的としています。さらに、聴覚情報とテキスト情報を整合させるモデルの能力を向上させるために開発された、3段階の学習アプローチを紹介する。このアプローチとASRコンポーネントの戦略的統合により、AISHELL-1、Test_Net、Test_MeetingテストセットでSOTAの性能を達成することができた。我々の分析は、LLMベースのASRシステムにおける今後の研究のための経験的基礎を提示し、中国のデータセットを使用してパフォーマンスを最適化するための洞察を提供します。再現可能な研究を促進するため、データ準備、トレーニング、推論、スコアリングに使用したすべてのスクリプト、事前トレーニング済みモデル、トレーニングログを公開します。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated unparalleled effectiveness in various NLP tasks, and integrating LLMs with automatic speech recognition (ASR) is becoming a mainstream paradigm. Building upon this momentum, our research delves into an in-depth examination of this paradigm on a large open-source Chinese dataset. Specifically, our research aims to evaluate the impact of various configurations of speech encoders, LLMs, and projector modules in the context of the speech foundation encoder-LLM ASR paradigm. Furthermore, we introduce a three-stage training approach, expressly developed to enhance the model’s ability to align auditory and textual information. The implementation of this approach, alongside the strategic integration of ASR components, enabled us to achieve the SOTA performance on the AISHELL-1, Test_Net, and Test_Meeting test sets. Our analysis presents an empirical foundation for future research in LLM-based ASR systems and offers insights into optimizing performance using Chinese datasets. We will publicly release all scripts used for data preparation, training, inference, and scoring, as well as pre-trained models and training logs to promote reproducible research.
arxiv情報
著者 | Xuelong Geng,Tianyi Xu,Kun Wei,Bingshen Mu,Hongfei Xue,He Wang,Yangze Li,Pengcheng Guo,Yuhang Dai,Longhao Li,Mingchen Shao,Lei Xie |
発行日 | 2024-05-06 08:56:50+00:00 |
arxivサイト | arxiv_id(pdf) |