Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization

要約

AVSL (Audio-Visual Source Localization) は、ペアになったオーディオ クリップが与えられたビデオ フレーム内で音声オブジェクトの位置を特定することを目的としています。
既存の方法は主に、視聴覚対応の自己教師あり対比学習に依存しています。
境界ボックスの注釈がないと、特に小さなオブジェクトの場合、正確な位置特定を達成するのに苦労し、ぼやけた境界と誤検知に悩まされます。
さらに、単純な半教師あり手法では、豊富なラベルなしデータの情報を十分に活用することができません。
この論文では、確証バイアスの問題を回避するために、2 つの教師と生徒の構造で構成される、AVSL 用の新しい半教師あり学習フレームワーク、すなわち Dual Mean-Teacher (DMT) を提案します。
具体的には、限られたラベル付きデータで事前トレーニングされた 2 人の教師を採用して、予測間のコンセンサスを介してノイズの多いサンプルをフィルタリングし、信頼度マップを交差させることで高品質の疑似ラベルを生成します。
ラベル付きデータとラベルなしデータの両方を十分に活用し、提案されている公平なフレームワークにより、DMT は現在の最先端の手法を大幅に上回るパフォーマンスを実現し、Flickr-SoundNet と VGG-Sound Source では 90.4% と 48.8% の CIoU を達成しました。
わずか 3% の位置アノテーションを与えた場合、自己教師ありメソッドおよび半教師ありメソッドと比較して、それぞれ 8.9%、9.6%、および 4.6%、6.4% の改善が得られました。
また、フレームワークをいくつかの既存の AVSL メソッドに拡張し、そのパフォーマンスを一貫して向上させます。

要約(オリジナル)

Audio-Visual Source Localization (AVSL) aims to locate sounding objects within video frames given the paired audio clips. Existing methods predominantly rely on self-supervised contrastive learning of audio-visual correspondence. Without any bounding-box annotations, they struggle to achieve precise localization, especially for small objects, and suffer from blurry boundaries and false positives. Moreover, the naive semi-supervised method is poor in fully leveraging the information of abundant unlabeled data. In this paper, we propose a novel semi-supervised learning framework for AVSL, namely Dual Mean-Teacher (DMT), comprising two teacher-student structures to circumvent the confirmation bias issue. Specifically, two teachers, pre-trained on limited labeled data, are employed to filter out noisy samples via the consensus between their predictions, and then generate high-quality pseudo-labels by intersecting their confidence maps. The sufficient utilization of both labeled and unlabeled data and the proposed unbiased framework enable DMT to outperform current state-of-the-art methods by a large margin, with CIoU of 90.4% and 48.8% on Flickr-SoundNet and VGG-Sound Source, obtaining 8.9%, 9.6% and 4.6%, 6.4% improvements over self- and semi-supervised methods respectively, given only 3% positional-annotations. We also extend our framework to some existing AVSL methods and consistently boost their performance.

arxiv情報

著者 Yuxin Guo,Shijie Ma,Hu Su,Zhiqing Wang,Yuhao Zhao,Wei Zou,Siyang Sun,Yun Zheng
発行日 2024-03-05 17:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク