Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR

要約

このペーパーでは、言語固有の双方向コンテキストの統合をスピーチ大言語モデル(SLLM)に統合して、多言語の連続会話自動音声認識(ASR)を改善します。
トレーニング中にキャラクターレベルのコンテキストマスキング戦略を提案します。これにより、コンテキストの一部をランダムに削除して、堅牢性を高め、推論中に発生する可能性のある欠陥のある転写をよりよくエミュレートします。
デコードのために、2段階のパイプラインが使用されます。初期の分離セグメントデコードに続いて、隣接する仮説を使用したコンテキスト対応の再廃止が続きます。
11の言語をカバーする1500時間の多言語会話音声および言語モデル(MLC-SLM)コーパスで評価されたこの方法は、MLC-SLM競争の6000時間のデータでトレーニングされたモデルでさえも強力なベースラインと比較して18%の相対的な改善を達成します。
これらの結果は、多言語の連続会話ASRにコンテキスト情報を組み込むことの重要な利点を強調しています。

要約(オリジナル)

This paper introduces the integration of language-specific bi-directional context into a speech large language model (SLLM) to improve multilingual continuous conversational automatic speech recognition (ASR). We propose a character-level contextual masking strategy during training, which randomly removes portions of the context to enhance robustness and better emulate the flawed transcriptions that may occur during inference. For decoding, a two-stage pipeline is utilized: initial isolated segment decoding followed by context-aware re-decoding using neighboring hypotheses. Evaluated on the 1500-hour Multilingual Conversational Speech and Language Model (MLC-SLM) corpus covering eleven languages, our method achieves an 18% relative improvement compared to a strong baseline, outperforming even the model trained on 6000 hours of data for the MLC-SLM competition. These results underscore the significant benefit of incorporating contextual information in multilingual continuous conversational ASR.

arxiv情報

著者 Yizhou Peng,Hexin Liu,Eng Siong Chng
発行日 2025-06-16 12:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク