Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization

要約

最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時間の音声から微妙な偽造操作を検出するには高度な対策を必要としています。
しかし、既存の対策は依然として分類の目的を果たしており、部分偽造セグメントの開始および終了タイムスタンプの有意義な分析を実行できません。
この課題に対処するために、オーディオの時間的偽造の検出と位置特定のためのフレームレベル検出ネットワーク (FDN) と提案改良ネットワーク (PRN) を組み込んだ、新しい粗いから細かい提案改良フレームワーク (CFPRF) を導入します。
具体的には、FDN は、本物のフレームと偽のフレームの間で有益な不一致の手がかりをマイニングして、偽造領域を大まかに示すのに有益な識別特徴を取得することを目的としています。
PRN は、FDN から導出された粗粒度の提案を改良するために、信頼スコアと回帰オフセットを予測する役割を果たします。
堅牢な識別特徴を学習するために、わずかな操作によって引き起こされる異なるフレーム間の敏感な違いを拡大するための、対比表現学習によって導かれる差分認識特徴学習 (DAFL) モジュールを考案します。
さらに、境界認識機能拡張 (BAFE) モジュールを設計して、複数の遷移境界のコンテキスト情報を取得し、クロスアテンション メカニズムを介して境界情報と時間的特徴の間の相互作用をガイドします。
広範な実験により、当社の CFPRF が LAV-DF、ASVS2019PS、HAD などのさまざまなデータセットで最先端のパフォーマンスを達成することが示されています。

要約(オリジナル)

Recently, a novel form of audio partial forgery has posed challenges to its forensics, requiring advanced countermeasures to detect subtle forgery manipulations within long-duration audio. However, existing countermeasures still serve a classification purpose and fail to perform meaningful analysis of the start and end timestamps of partial forgery segments. To address this challenge, we introduce a novel coarse-to-fine proposal refinement framework (CFPRF) that incorporates a frame-level detection network (FDN) and a proposal refinement network (PRN) for audio temporal forgery detection and localization. Specifically, the FDN aims to mine informative inconsistency cues between real and fake frames to obtain discriminative features that are beneficial for roughly indicating forgery regions. The PRN is responsible for predicting confidence scores and regression offsets to refine the coarse-grained proposals derived from the FDN. To learn robust discriminative features, we devise a difference-aware feature learning (DAFL) module guided by contrastive representation learning to enlarge the sensitive differences between different frames induced by minor manipulations. We further design a boundary-aware feature enhancement (BAFE) module to capture the contextual information of multiple transition boundaries and guide the interaction between boundary information and temporal features via a cross-attention mechanism. Extensive experiments show that our CFPRF achieves state-of-the-art performance on various datasets, including LAV-DF, ASVS2019PS, and HAD.

arxiv情報

著者 Junyan Wu,Wei Lu,Xiangyang Luo,Rui Yang,Qian Wang,Xiaochun Cao
発行日 2024-07-23 15:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T10, cs.CV, cs.MM, cs.SD, eess.AS, I.2 パーマリンク