Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism

要約

部分的にスプーフィングされたオーディオ位置特定のタスクは、フレーム レベルでオーディオの信頼性を正確に判断することを目的としています。
いくつかの研究では有望な結果が得られていますが、単一モデル内の境界情報の利用は依然として未開拓の研究テーマです。
この研究では、境界認識注意メカニズム (BAM) と呼ばれる新しい方法を提案します。
具体的には、境界強化と境界フレームワイズ アテンションという 2 つのコア モジュールで構成されます。
前者は、フレーム内およびフレーム間の情報を収集して、後で境界位置の検出と真正性の決定に使用される識別可能な境界特徴を抽出します。一方、後者は、境界予測結果を活用してフレーム間の特徴の相互作用を明示的に制御し、フレーム間の効果的な識別を実現します。
本物のフレームと偽物のフレーム。
PartialSpoof データベースでの実験結果は、提案した方法が最高のパフォーマンスを達成することを示しています。
コードは https://github.com/media-sec-lab/BAM で入手できます。

要約(オリジナル)

The task of partially spoofed audio localization aims to accurately determine audio authenticity at a frame level. Although some works have achieved encouraging results, utilizing boundary information within a single model remains an unexplored research topic. In this work, we propose a novel method called Boundary-aware Attention Mechanism (BAM). Specifically, it consists of two core modules: Boundary Enhancement and Boundary Frame-wise Attention. The former assembles the intra-frame and inter-frame information to extract discriminative boundary features that are subsequently used for boundary position detection and authenticity decision, while the latter leverages boundary prediction results to explicitly control the feature interaction between frames, which achieves effective discrimination between real and fake frames. Experimental results on PartialSpoof database demonstrate our proposed method achieves the best performance. The code is available at https://github.com/media-sec-lab/BAM.

arxiv情報

著者 Jiafeng Zhong,Bin Li,Jiangyan Yi
発行日 2024-07-31 13:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク