要約
AVSL (Audio-Visual Source Localization) は、与えられた音声キューに基づいて、シーン内の特定の音声オブジェクトを識別するタスクです。
私たちの研究では、擬似ラベルを使用した半教師あり AVSL に焦点を当てています。
バイアスの蓄積、ノイズ感度、不安定性など、バニラのハード擬似ラベルの問題に対処するために、クロス擬似ラベル (XPL) と呼ばれる新しい方法を提案します。この方法では、2 つのモデルがクロスリファイン メカニズムで相互に学習し、バイアスを回避します。
累積。
XPL には 2 つの有効なコンポーネントが装備されています。
まず、シャープ化を備えたソフト擬似ラベルと擬似ラベルの指数移動平均メカニズムにより、モデルは段階的な自己改善を達成し、安定したトレーニングを保証できます。
次に、カリキュラム データ選択モジュールは、潜在的なバイアスを軽減するために、トレーニング中に高品質の疑似ラベルを適応的に選択します。
実験結果は、XPL が既存の方法を大幅に上回っており、確証バイアスを効果的に軽減し、トレーニングの安定性を確保しながら、最先端のパフォーマンスを達成していることを示しています。
要約(オリジナル)
Audio-Visual Source Localization (AVSL) is the task of identifying specific sounding objects in the scene given audio cues. In our work, we focus on semi-supervised AVSL with pseudo-labeling. To address the issues with vanilla hard pseudo-labels including bias accumulation, noise sensitivity, and instability, we propose a novel method named Cross Pseudo-Labeling (XPL), wherein two models learn from each other with the cross-refine mechanism to avoid bias accumulation. We equip XPL with two effective components. Firstly, the soft pseudo-labels with sharpening and pseudo-label exponential moving average mechanisms enable models to achieve gradual self-improvement and ensure stable training. Secondly, the curriculum data selection module adaptively selects pseudo-labels with high quality during training to mitigate potential bias. Experimental results demonstrate that XPL significantly outperforms existing methods, achieving state-of-the-art performance while effectively mitigating confirmation bias and ensuring training stability.
arxiv情報
著者 | Yuxin Guo,Shijie Ma,Yuhao Zhao,Hu Su,Wei Zou |
発行日 | 2024-03-05 16:28:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google