Linguistic Knowledge Transfer Learning for Speech Enhancement

要約

言語の知識は、話し言葉の理解において重要な役割を果たします。
騒々しい環境での音声認識のための重要なセマンティックおよび構文コンテキストを提供します。
ただし、ほとんどの音声強化(SE)メソッドは、主に音響機能に依存して、言語統合の限られた調査を行い、ノイズの多い音声とクリーンなスピーチのマッピング関係を学習します。
テキストに基づいたSEアプローチが調査されていますが、多くの場合、明示的な音声テキストアラインメントまたは外部から提供されたテキストデータが必要であり、実際のシナリオで実用性を制約します。
さらに、テキストを入力として使用すると、固有の違いのために言語表現と音響表現を調整する際に課題があります。
この研究では、前訓練を受けた大規模な言語モデル(LLMS)を活用して、推論中にテキスト入力またはLLMを必要とせずに言語学の知識をSEモデルに注入するために、クロスモダリティ知識移転(CMKT)学習フレームワークを提案します。
さらに、知識移転を改善するための不整合戦略を導入します。
この戦略は、制御された時間的シフトを適用し、モデルがより堅牢な表現を学習するよう促します。
実験的評価は、CMKTがさまざまなSEアーキテクチャとLLM埋め込みにわたってベースラインモデルを常に上回り、異なる構成への適応性を強調することを示しています。
さらに、マンダリンと英語のデータセットの結果は、多様な言語条件全体でその有効性を確認し、その堅牢性をさらに検証します。
さらに、CMKTはテキストデータなしでシナリオでも効果的であり、実際のアプリケーションの実用性を強調しています。
言語モダリティとアコースティックモダリティの間のギャップを埋めることにより、CMKTは言語知識をSEモデルに統合するためのスケーラブルで革新的なソリューションを提供し、明瞭度と強化パフォーマンスの両方を大幅に改善します。

要約(オリジナル)

Linguistic knowledge plays a crucial role in spoken language comprehension. It provides essential semantic and syntactic context for speech perception in noisy environments. However, most speech enhancement (SE) methods predominantly rely on acoustic features to learn the mapping relationship between noisy and clean speech, with limited exploration of linguistic integration. While text-informed SE approaches have been investigated, they often require explicit speech-text alignment or externally provided textual data, constraining their practicality in real-world scenarios. Additionally, using text as input poses challenges in aligning linguistic and acoustic representations due to their inherent differences. In this study, we propose the Cross-Modality Knowledge Transfer (CMKT) learning framework, which leverages pre-trained large language models (LLMs) to infuse linguistic knowledge into SE models without requiring text input or LLMs during inference. Furthermore, we introduce a misalignment strategy to improve knowledge transfer. This strategy applies controlled temporal shifts, encouraging the model to learn more robust representations. Experimental evaluations demonstrate that CMKT consistently outperforms baseline models across various SE architectures and LLM embeddings, highlighting its adaptability to different configurations. Additionally, results on Mandarin and English datasets confirm its effectiveness across diverse linguistic conditions, further validating its robustness. Moreover, CMKT remains effective even in scenarios without textual data, underscoring its practicality for real-world applications. By bridging the gap between linguistic and acoustic modalities, CMKT offers a scalable and innovative solution for integrating linguistic knowledge into SE models, leading to substantial improvements in both intelligibility and enhancement performance.

arxiv情報

著者 Kuo-Hsuan Hung,Xugang Lu,Szu-Wei Fu,Huan-Hsin Tseng,Hsin-Yi Lin,Chii-Wann Lin,Yu Tsao
発行日 2025-03-10 09:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク