Temporal Order Preserved Optimal Transport-based Cross-modal Knowledge Transfer Learning for ASR

要約

言語知識を事前学習済み言語モデル (PLM) から音響モデルに転送すると、自動音声認識 (ASR) のパフォーマンスが大幅に向上することが示されています。
しかし、クロスモダリティにおける異種の特徴分布のため、言語シーケンスと音響シーケンスの間の特徴アラインメントと知識伝達のための効果的なモデルを設計することは依然として困難な課題です。
確率分布の不一致を効率的に測定する最適トランスポート (OT) は、音響モダリティと言語モダリティの間で知識を調整し伝達するための大きな可能性を秘めています。
それにもかかわらず、元の OT は音響および言語特徴シーケンスを整列した 2 つの順序のないセットとして扱い、OT 結合推定中に時間的順序情報を無視します。
したがって、音響表現と言語表現の間の適切な調整を学習するには、時間のかかる事前トレーニング段階が必要になります。
この論文では、ASR のための時間順序保存 OT (TOT) ベースのクロスモーダル アラインメントと知識伝達 (CAKT) (TOT-CAKT) を提案します。
TOT-CAKT では、音響シーケンスの局所的な隣接フレームが言語シーケンスの隣接領域にスムーズにマッピングされ、特徴の位置合わせとマッチングにおける時間的順序関係が維持されます。
TOT-CAKT モデル フレームワークを使用して、言語知識の伝達のために事前トレーニング済みの中国語 PLM を使用して中国語 ASR 実験を実施します。
私たちの結果は、提案された TOT-CAKT が、言語知識伝達を採用したいくつかの最先端のモデルと比較して ASR パフォーマンスを大幅に向上させ、ASR の逐次特徴アライメントにおける元の OT ベースの手法の弱点に対処していることを示しています。

要約(オリジナル)

Transferring linguistic knowledge from a pretrained language model (PLM) to an acoustic model has been shown to greatly improve the performance of automatic speech recognition (ASR). However, due to the heterogeneous feature distributions in cross-modalities, designing an effective model for feature alignment and knowledge transfer between linguistic and acoustic sequences remains a challenging task. Optimal transport (OT), which efficiently measures probability distribution discrepancies, holds great potential for aligning and transferring knowledge between acoustic and linguistic modalities. Nonetheless, the original OT treats acoustic and linguistic feature sequences as two unordered sets in alignment and neglects temporal order information during OT coupling estimation. Consequently, a time-consuming pretraining stage is required to learn a good alignment between the acoustic and linguistic representations. In this paper, we propose a Temporal Order Preserved OT (TOT)-based Cross-modal Alignment and Knowledge Transfer (CAKT) (TOT-CAKT) for ASR. In the TOT-CAKT, local neighboring frames of acoustic sequences are smoothly mapped to neighboring regions of linguistic sequences, preserving their temporal order relationship in feature alignment and matching. With the TOT-CAKT model framework, we conduct Mandarin ASR experiments with a pretrained Chinese PLM for linguistic knowledge transfer. Our results demonstrate that the proposed TOT-CAKT significantly improves ASR performance compared to several state-of-the-art models employing linguistic knowledge transfer, and addresses the weaknesses of the original OT-based method in sequential feature alignment for ASR.

arxiv情報

著者 Xugang Lu,Peng Shen,Yu Tsao,Hisashi Kawai
発行日 2024-09-05 11:34:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク