要約
音声強化(SE)は、騒々しい環境での音声の品質と明瞭度を改善することを目的としています。
最近の研究では、オーディオ信号処理に視覚的な手がかりを組み込むと、SEパフォーマンスが向上することが示されています。
人間の音声コミュニケーションには自然に音声、視覚、言語のモダリティが含まれることを考えると、言語情報を統合することにより、追加の改善を期待することは合理的です。
ただし、これらのモダリティのギャップを効果的に橋渡しすることは、特に知識の移転中に依然として大きな課題です。
このホワイトペーパーでは、視聴覚音声増強(AVSE)のためにオーディオ、視覚、および言語情報を統合する拡散ベースのモデルを活用するDLAV-SEと呼ばれる新しいマルチモーダル学習フレームワークを提案します。
このフレーム内で、言語モダリティは、トレーニング中のクロスモーダルナレッジ転送(CMKT)メカニズムを通じて言語知識を視聴覚ドメインに伝達する前提条件モデル(PLM)を使用してモデル化されます。
トレーニング後、PLMは、CMKTプロセスを通じてその知識がAVSEモデルに組み込まれているため、推論では必要ありません。
アプローチの有効性を評価するために、一連のSE実験を実施します。
結果は、提案されたDLAV-SEシステムが音声品質を大幅に改善し、最先端の(SOTA)方法と比較して、音声混乱などの生成アーティファクトを減らすことを示しています。
さらに、視覚化分析により、CMKTメソッドがAVSE出力の生成品質が向上することを確認します。
これらの調査結果は、AVSEを進めるための拡散ベースの方法の約束と、言語情報を組み込んでシステムのパフォーマンスをさらに向上させることの価値の両方を強調しています。
要約(オリジナル)
Speech enhancement (SE) aims to improve the quality and intelligibility of speech in noisy environments. Recent studies have shown that incorporating visual cues in audio signal processing can enhance SE performance. Given that human speech communication naturally involves audio, visual, and linguistic modalities, it is reasonable to expect additional improvements by integrating linguistic information. However, effectively bridging these modality gaps, particularly during knowledge transfer remains a significant challenge. In this paper, we propose a novel multi-modal learning framework, termed DLAV-SE, which leverages a diffusion-based model integrating audio, visual, and linguistic information for audio-visual speech enhancement (AVSE). Within this framework, the linguistic modality is modeled using a pretrained language model (PLM), which transfers linguistic knowledge to the audio-visual domain through a cross-modal knowledge transfer (CMKT) mechanism during training. After training, the PLM is no longer required at inference, as its knowledge is embedded into the AVSE model through the CMKT process. We conduct a series of SE experiments to evaluate the effectiveness of our approach. Results show that the proposed DLAV-SE system significantly improves speech quality and reduces generative artifacts, such as phonetic confusion, compared to state-of-the-art (SOTA) methods. Furthermore, visualization analyses confirm that the CMKT method enhances the generation quality of the AVSE outputs. These findings highlight both the promise of diffusion-based methods for advancing AVSE and the value of incorporating linguistic information to further improve system performance.
arxiv情報
著者 | Meng-Ping Lin,Jen-Cheng Hou,Chia-Wei Chen,Shao-Yi Chien,Jun-Cheng Chen,Xugang Lu,Yu Tsao |
発行日 | 2025-05-26 13:41:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google