要約
音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の統合が大きな利点をもたらすことが実証されています。
しかし、現在の研究の大部分は顔と唇の動きの検査に焦点を当てており、オクルージョンが発生したり、カメラの視野が遠い場合には、これらの動きが損なわれたり、まったくアクセスできなくなったりする可能性があります。
周囲の環境からの状況に応じた視覚的手がかりは見落とされてきました。たとえば、犬の鳴き声を見たとき、私たちの脳には、吠え声を識別して除去する生来の能力があります。
この目的を達成するために、この論文では、新しいタスク、すなわち SAV-SE を紹介します。
私たちの知る限り、これは、同期ビデオからの豊富なコンテキスト情報をノイズの種類を示す補助キューとして使用し、最終的に音声強調パフォーマンスを向上させる最初の提案です。
具体的には、Conformer モジュールと Mamba モジュールの補完的な長所を組み込んだ VC-S$^2$E メソッドを提案します。
公開されている MUSIC、AVSpeech、および AudioSet データセットに対して広範な実験が行われ、その結果は他の競合手法に対する VC-S$^2$E の優位性を示しています。
ソースコードは公開させていただきます。
プロジェクトのデモページ: https://AVSEPage.github.io/
要約(オリジナル)
Speech enhancement plays an essential role in various applications, and the integration of visual information has been demonstrated to bring substantial advantages. However, the majority of current research concentrates on the examination of facial and lip movements, which can be compromised or entirely inaccessible in scenarios where occlusions occur or when the camera view is distant. Whereas contextual visual cues from the surrounding environment have been overlooked: for example, when we see a dog bark, our brain has the innate ability to discern and filter out the barking noise. To this end, in this paper, we introduce a novel task, i.e. SAV-SE. To our best knowledge, this is the first proposal to use rich contextual information from synchronized video as auxiliary cues to indicate the type of noise, which eventually improves the speech enhancement performance. Specifically, we propose the VC-S$^2$E method, which incorporates the Conformer and Mamba modules for their complementary strengths. Extensive experiments are conducted on public MUSIC, AVSpeech and AudioSet datasets, where the results demonstrate the superiority of VC-S$^2$E over other competitive methods. We will make the source code publicly available. Project demo page: https://AVSEPage.github.io/
arxiv情報
著者 | Xinyuan Qian,Jiaran Gao,Yaodan Zhang,Qiquan Zhang,Hexin Liu,Leibny Paola Garcia,Haizhou Li |
発行日 | 2024-11-12 12:23:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google