Alignment-Free Training for Transducer-based Multi-Talker ASR

要約

RNN トランスデューサ (RNNT) を拡張して複数話者の音声を認識することは、より広範な自動音声認識 (ASR) アプリケーションにとって不可欠です。
マルチトーカー RNNT (MT-RNNT) は、コストのかかるフロントエンドのソース分離に依存せずに認識を達成することを目的としています。
MT-RNNT は従来、複数のエンコーダまたはデコーダを備えたアーキテクチャを使用するか、すべての話者の文字起こしを単一の出力ストリームにシリアル化することによって実装されていました。
最初のアプローチは、特に複数のエンコーダ処理が必要なため、計算コストが高くなります。
対照的に、2 番目のアプローチには複雑なラベル生成プロセスが含まれており、混合内のすべての話者が話したすべての単語の正確なタイムスタンプを外部 ASR システムから取得する必要があります。
本稿では、標準RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)用の新しいアライメントフリートレーニングスキームを提案します。
ターゲット ラベルは、各話者に対応するプロンプト トークンを書き起こしの先頭に追加することによって作成され、混合内での各話者の出現順序が反映されます。
したがって、MT-RNNT-AFT は正確な位置合わせに依存せずにトレーニングでき、わずか 1 回のエンコーダー処理ですべての話者の音声を認識できます。
実験によれば、MT-RNNT-AFT は、トレーニング プロセスを大幅に簡素化しながら、最先端の代替手段と同等のパフォーマンスを達成します。

要約(オリジナル)

Extending the RNN Transducer (RNNT) to recognize multi-talker speech is essential for wider automatic speech recognition (ASR) applications. Multi-talker RNNT (MT-RNNT) aims to achieve recognition without relying on costly front-end source separation. MT-RNNT is conventionally implemented using architectures with multiple encoders or decoders, or by serializing all speakers’ transcriptions into a single output stream. The first approach is computationally expensive, particularly due to the need for multiple encoder processing. In contrast, the second approach involves a complex label generation process, requiring accurate timestamps of all words spoken by all speakers in the mixture, obtained from an external ASR system. In this paper, we propose a novel alignment-free training scheme for the MT-RNNT (MT-RNNT-AFT) that adopts the standard RNNT architecture. The target labels are created by appending a prompt token corresponding to each speaker at the beginning of the transcription, reflecting the order of each speaker’s appearance in the mixtures. Thus, MT-RNNT-AFT can be trained without relying on accurate alignments, and it can recognize all speakers’ speech with just one round of encoder processing. Experiments show that MT-RNNT-AFT achieves performance comparable to that of the state-of-the-art alternatives, while greatly simplifying the training process.

arxiv情報

著者 Takafumi Moriya,Shota Horiguchi,Marc Delcroix,Ryo Masumura,Takanori Ashihara,Hiroshi Sato,Kohei Matsuura,Masato Mimura
発行日 2024-09-30 13:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク