DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction

要約

オーディオビジュアルの顕著性予測は、多様なモダリティの補完からサポートを得ることができるが、タスク固有の損失関数と同様に、カスタマイズされたアーキテクチャによって、さらなる性能向上が課題となっている。最近の研究において、ノイズ除去拡散モデルは、その固有の汎化能力により、タスクフレームワークの統一に有望であることが示されている。この動機に従い、本研究では、一般化されたオーディオビジュアル顕著性予測(DiffSal)のための新しい拡散アーキテクチャを提案する。これは、入力オーディオとビデオを条件として利用することにより、顕著性マップの条件付き生成タスクとして予測問題を定式化する。時空間的なオーディオビジュアルの特徴に基づき、ノイズの多いマップから真実の顕著性マップを漸進的に洗練するために、マルチモーダルな注意の変調を行う追加ネットワークSaliency-UNetを設計する。広範な実験により、提案されたDiffSalは、6つの困難なオーディオビジュアルベンチマークにおいて、優れた性能を達成できることが実証され、6つの指標により、従来の最先端技術の結果と比較して、平均6.3%の相対的な改善を示した。

要約(オリジナル)

Audio-visual saliency prediction can draw support from diverse modality complements, but further performance enhancement is still challenged by customized architectures as well as task-specific loss functions. In recent studies, denoising diffusion models have shown more promising in unifying task frameworks owing to their inherent ability of generalization. Following this motivation, a novel Diffusion architecture for generalized audio-visual Saliency prediction (DiffSal) is proposed in this work, which formulates the prediction problem as a conditional generative task of the saliency map by utilizing input audio and video as the conditions. Based on the spatio-temporal audio-visual features, an extra network Saliency-UNet is designed to perform multi-modal attention modulation for progressive refinement of the ground-truth saliency map from the noisy map. Extensive experiments demonstrate that the proposed DiffSal can achieve excellent performance across six challenging audio-visual benchmarks, with an average relative improvement of 6.3\% over the previous state-of-the-art results by six metrics.

arxiv情報

著者 Junwen Xiong,Peng Zhang,Tao You,Chuanyue Li,Wei Huang,Yufei Zha
発行日 2024-03-02 14:52:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク