要約
部分的になりすました音声の検出は、フレーム レベルで音声の信頼性を正確に特定する必要があるため、困難な作業です。
この問題に対処するために、私たちは、特徴と位置の両方の情報を効果的にキャプチャできる、きめの細かい部分的になりすました音声検出方法、つまり時間ディープフェイク ロケーション (TDL) を提案します。
具体的には、私たちのアプローチには、類似性モジュールの埋め込みと時間畳み込み演算という 2 つの新しい部分が含まれています。
本物の特徴と偽の特徴の間の識別を強化するために、埋め込み類似性モジュールは、本物のフレームを偽のフレームから分離できる埋め込み空間を生成するように設計されています。
位置情報に効果的に集中するために、隣接するフレーム間のフレーム固有の類似性を計算し、畳み込みの対象となる有益な近傍を動的に選択する時間畳み込み演算が提案されています。
広範な実験により、私たちの手法は ASVspoof2019 部分スプーフ データセットのベースライン モデルよりも優れたパフォーマンスを示し、クロスデータセット シナリオでも優れたパフォーマンスを実証することが示されています。
コードはオンラインで公開されています。
要約(オリジナル)
Partially spoofed audio detection is a challenging task, lying in the need to accurately locate the authenticity of audio at the frame level. To address this issue, we propose a fine-grained partially spoofed audio detection method, namely Temporal Deepfake Location (TDL), which can effectively capture information of both features and locations. Specifically, our approach involves two novel parts: embedding similarity module and temporal convolution operation. To enhance the identification between the real and fake features, the embedding similarity module is designed to generate an embedding space that can separate the real frames from fake frames. To effectively concentrate on the position information, temporal convolution operation is proposed to calculate the frame-specific similarities among neighboring frames, and dynamically select informative neighbors to convolution. Extensive experiments show that our method outperform baseline models in ASVspoof2019 Partial Spoof dataset and demonstrate superior performance even in the crossdataset scenario. The code is released online.
arxiv情報
著者 | Yuankun Xie,Haonan Cheng,Yutian Wang,Long Ye |
発行日 | 2023-09-06 14:29:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google