要約
大規模言語モデルは様々な自然言語処理タスクにおいて比類のない有効性を実証しており、LLMと自動音声認識の統合は主流パラダイムになりつつある。この勢いに乗って、本研究では、大規模なオープンソース中国語データセットを用いて、このパラダイムの詳細な検証を行います。具体的には、音声エンコーダ、LLM、プロジェクタモジュールの様々な構成が、音声エンコーダLLM ASRパラダイムに与える影響を評価することを目的としています。さらに、聴覚情報とテキスト情報を整合させるモデルの能力を向上させるために開発された、3段階の学習アプローチを紹介する。このアプローチとASRコンポーネントの戦略的な統合により、AISHELL1、TestNet、TestMeetingテストセットでSOTAの性能を達成することができた。我々の分析は、LLMベースのASRシステムにおける今後の研究のための経験的基礎を提示し、中国のデータセットを使用してパフォーマンスを最適化するための洞察を提供します。再現可能な研究を促進するため、データ準備、トレーニング、推論、スコアリングに使用したすべてのスクリプト、事前学習済みモデル、トレーニングログを公開します。
要約(オリジナル)
Large Language Models have demonstrated unparalleled effectiveness in various NLP tasks, and integrating LLMs with automatic speech recognition is becoming a mainstream paradigm. Building upon this momentum, our research delves into an indepth examination of this paradigm on a large opensource Chinese dataset. Specifically, our research aims to evaluate the impact of various configurations of speech encoders, LLMs, and projector modules in the context of the speech foundation encoderLLM ASR paradigm. Furthermore, we introduce a threestage training approach, expressly developed to enhance the model’s ability to align auditory and textual information. The implementation of this approach, alongside the strategic integration of ASR components, enabled us to achieve the SOTA performance on the AISHELL1, TestNet, and TestMeeting test sets. Our analysis presents an empirical foundation for future research in LLMbased ASR systems and offers insights into optimizing performance using Chinese datasets. We will publicly release all scripts used for data preparation, training, inference, and scoring, as well as pretrained models and training logs to promote reproducible research.
arxiv情報
著者 | Xuelong Geng,Tianyi Xu,Kun Wei,Bingsheng Mu,Hongfei Xue,He Wang,Yangze Li,Pengcheng Guo,Yuhang Dai,Longhao Li,Mingchen Shao,Lei Xie |
発行日 | 2024-05-03 14:35:58+00:00 |
arxivサイト | arxiv_id(pdf) |