TDFNet: An Efficient Audio-Visual Speech Separation Model with Top-down Fusion

要約

オーディオビジュアル音声分離は、音声認識、日記化、シーン分析、支援技術などのさまざまな分野での応用の可能性があるため、近年大きな注目を集めています。
軽量のオーディオビジュアル音声分離ネットワークの設計は、低遅延アプリケーションにとって重要ですが、既存の方法では多くの場合、より優れた分離パフォーマンスを達成するためにより高い計算コストとより多くのパラメータが必要になります。
このペーパーでは、Top-Down-Fusion Net (TDFNet) と呼ばれる視聴覚音声分離モデルを紹介します。これは、TDANet のアーキテクチャに基づいて構築された、視聴覚音声分離の最先端 (SOTA) モデルです。
、音声のみの音声分離方法。
TDANet は、TDFNet 内の聴覚および視覚ネットワークのアーキテクチャ基盤として機能し、より少ないパラメーターで効率的なモデルを提供します。
LRS2-2Mix データセットでは、TDFNet は、以前の SOTA メソッドである CTCNet と比較して、すべてのパフォーマンス メトリックにわたって最大 10\% のパフォーマンス向上を達成します。
注目すべきことに、これらの結果は、より少ないパラメータと、CTCNet の積和演算 (MAC) の 28% のみを使用して達成されています。
本質的に、私たちの方法は、視聴覚領域内の音声分離の課題に対する非常に効果的かつ効率的なソリューションを提供し、視覚情報を最適に活用する点で大幅な進歩をもたらします。

要約(オリジナル)

Audio-visual speech separation has gained significant traction in recent years due to its potential applications in various fields such as speech recognition, diarization, scene analysis and assistive technologies. Designing a lightweight audio-visual speech separation network is important for low-latency applications, but existing methods often require higher computational costs and more parameters to achieve better separation performance. In this paper, we present an audio-visual speech separation model called Top-Down-Fusion Net (TDFNet), a state-of-the-art (SOTA) model for audio-visual speech separation, which builds upon the architecture of TDANet, an audio-only speech separation method. TDANet serves as the architectural foundation for the auditory and visual networks within TDFNet, offering an efficient model with fewer parameters. On the LRS2-2Mix dataset, TDFNet achieves a performance increase of up to 10\% across all performance metrics compared with the previous SOTA method CTCNet. Remarkably, these results are achieved using fewer parameters and only 28\% of the multiply-accumulate operations (MACs) of CTCNet. In essence, our method presents a highly effective and efficient solution to the challenges of speech separation within the audio-visual domain, making significant strides in harnessing visual information optimally.

arxiv情報

著者 Samuel Pegg,Kai Li,Xiaolin Hu
発行日 2024-01-25 13:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク