Bridging Speech and Text: Enhancing ASR with Pinyin-to-Character Pre-training in LLMs

要約

大規模言語モデル (LLM) と事前トレーニングされた音声モデルの統合により、自動音声認識 (ASR) に新しい道が開かれました。
LLM はマルチモーダルな理解タスクでは優れていますが、ASR に対して LLM の機能を効果的に活用することは依然として大きな課題です。
この論文では、ASR タスクにおける LLM のパフォーマンスを向上させるための新しいトレーニング アプローチを紹介します。
対応する中国語文字を生成するために、発音特徴を表すピンイン埋め込みシーケンスで LLM を事前トレーニングすることを提案します。
このステップにより、LLM は実際の音声データに遭遇する前に、発音特徴からテキストを生成することに適応できるようになります。
さらに、LoRA パラメータを微調整して、LLM による音声モダリティ情報の理解を強化します。
AISHELL-1 コーパスでは、私たちのアプローチは、ピンイーから文字への事前トレーニングなしのベースラインと比較して、ASR タスクで 9.5% の相対的な改善をもたらしました。
さらに、ピンイーから文字への事前トレーニングに補助テキスト データを組み込むことでパフォーマンスがさらに向上し、19.0% の相対的な向上を達成しました。

要約(オリジナル)

The integration of large language models (LLMs) with pre-trained speech models has opened up new avenues in automatic speech recognition (ASR). While LLMs excel in multimodal understanding tasks, effectively leveraging their capabilities for ASR remains a significant challenge. This paper presents a novel training approach to enhance LLM performance in ASR tasks. We propose pre-training LLMs on Pinyin embedding sequences, which represent pronunciation features, to generate corresponding Chinese characters. This step enables the LLM to adapt to generating text from pronunciation features before encountering real speech data. Furthermore, we fine-tune the LoRA parameters to enhance the LLM’s understanding of speech modality information. In AISHELL-1 corpus, our approach yields a 9.5% relative improvement in ASR tasks compared to the baseline without Pinyi-to-Character pre-training. Additionally, incorporating auxiliary text data for Pinyi-to-Character pre-training further boosts performance, achieving a 19.0% relative improvement.

arxiv情報

著者 Yang Yuhang,Peng Yizhou,Eng Siong Chng,Xionghu Zhong
発行日 2024-09-24 12:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク