Egocentric Audio-Visual Noise Suppression

要約

【タイトル】エゴセントリックなオーディオ・ビジュアルノイズサプレッション

【要約】
– 本論文は、話者が映像には映っておらず、カメラが画面上にはみ出した外部世界を撮影する「エゴセントリックな映像」におけるオーディオ・ビジュアルノイズサプレッションを研究する。
– 以前のオーディオ・ビジュアル音声強化の研究とは異なり、口や顔の情報に依存せず、画面上に表示された可能性のあるノイズ源を利用する。
– エゴセントリックなビジュアル情報がノイズサプレッションに役立つことを初めて示し、オブジェクト認識およびアクション分類ベースのビジュアル特徴抽出器を比較し、オーディオとビジュアル表現を整列させる方法を調査する。
– 一致した特徴を融合するための異なる方法、およびノイズサプレッションモデル内の位置を検討し、ビジュアル情報を組み込む方法を説明する。
– 実験により、ビジュアル特徴は、加算補正マスクを生成するために使用される場合に最も役立つことが示される。
– 最後に、異なるノイズタイプに対して特異的なビジュアル特徴を確保するために、オーディオ・ビジュアルノイズサプレッションとビデオベースの音響イベント検出を共同最適化するマルチタスク学習フレームワークを導入する。
– 提案されたマルチタスクフレームワークは、0.16のPESQ改善を含むすべてのメトリクスでオーディオのみのベースラインを上回ることが示されており、多数のアクティブな妨害源、全体的なノイズタイプ、および異なるSNRでの性能の向上が明らかにされている。

要約(オリジナル)

This paper studies audio-visual noise suppression for egocentric videos — where the speaker is not captured in the video. Instead, potential noise sources are visible on screen with the camera emulating the off-screen speaker’s view of the outside world. This setting is different from prior work in audio-visual speech enhancement that relies on lip and facial visuals. In this paper, we first demonstrate that egocentric visual information is helpful for noise suppression. We compare object recognition and action classification-based visual feature extractors and investigate methods to align audio and visual representations. Then, we examine different fusion strategies for the aligned features, and locations within the noise suppression model to incorporate visual information. Experiments demonstrate that visual features are most helpful when used to generate additive correction masks. Finally, in order to ensure that the visual features are discriminative with respect to different noise types, we introduce a multi-task learning framework that jointly optimizes audio-visual noise suppression and video-based acoustic event detection. This proposed multi-task framework outperforms the audio-only baseline on all metrics, including a 0.16 PESQ improvement. Extensive ablations reveal the improved performance of the proposed model with multiple active distractors, overall noise types, and across different SNRs.

arxiv情報

著者 Roshan Sharma,Weipeng He,Ju Lin,Egor Lakomkin,Yang Liu,Kaustubh Kalgaonkar
発行日 2023-05-03 02:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS パーマリンク