Dual Domain-Adversarial Learning for Audio-Visual Saliency Prediction

要約

視覚情報と聴覚情報の両方が、ビデオの顕著な領域を判断するのに役立ちます。
ディープ畳み込みニューラル ネットワーク (CNN) は、オーディオビジュアルの顕著性予測タスクに対処する強力な能力を示しています。
撮影シーンや天候などのさまざまな要因により、ソースのトレーニング データとターゲットのテスト データの間に中程度の分布の不一致が存在することがよくあります。
ドメインの不一致は、CNN モデルのターゲット テスト データのパフォーマンス低下を引き起こします。
この論文は、視聴覚的顕著性予測のための教師なしドメイン適応問題に取り組むための初期の試みを行います。
ソースデータとターゲットデータ間のドメインの不一致を軽減するために、デュアルドメイン敵対的学習アルゴリズムを提案します。
最初に、特定のドメイン識別ブランチは、聴覚機能の分布を整列させるために構築されます。
次に、これらの聴覚的特徴は、クロスモーダル自己注意モジュールを介して視覚的特徴に融合されます。
もう一方のドメイン弁別ブランチは、融合したオーディオビジュアル機能によって暗示される視覚的特徴とオーディオビジュアル相関のドメイン不一致を減らすように考案されています。
公開ベンチマークでの実験は、私たちの方法がドメインの不一致によって引き起こされるパフォーマンスの低下を緩和できることを示しています。

要約(オリジナル)

Both visual and auditory information are valuable to determine the salient regions in videos. Deep convolution neural networks (CNN) showcase strong capacity in coping with the audio-visual saliency prediction task. Due to various factors such as shooting scenes and weather, there often exists moderate distribution discrepancy between source training data and target testing data. The domain discrepancy induces to performance degradation on target testing data for CNN models. This paper makes an early attempt to tackle the unsupervised domain adaptation problem for audio-visual saliency prediction. We propose a dual domain-adversarial learning algorithm to mitigate the domain discrepancy between source and target data. First, a specific domain discrimination branch is built up for aligning the auditory feature distributions. Then, those auditory features are fused into the visual features through a cross-modal self-attention module. The other domain discrimination branch is devised to reduce the domain discrepancy of visual features and audio-visual correlations implied by the fused audio-visual features. Experiments on public benchmarks demonstrate that our method can relieve the performance degradation caused by domain discrepancy.

arxiv情報

著者 Yingzi Fan,Longfei Han,Yue Zhang,Lechao Cheng,Chen Xia,Di Hu
発行日 2022-08-16 07:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク