Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks


フリーで入手可能で使いやすい音声編集ツールを使えば、音声スプライシングを簡単に行うことができます。同一人物の様々な音声サンプルを組み合わせることで、説得力のある偽造を作成することができます。このようなスプライスを検出することは、誤った情報を検討する公共分野でも、証拠の完全性を検証する法的な文脈でも重要です。残念なことに、音声スプライシングの既存の検出アルゴリズムのほとんどは、手作りの特徴を使用し、特定の仮定を置いています。しかし、犯罪捜査官は、未知の特性を持つ制約のない音源からの音声サンプルに直面することが多く、より一般的に適用可能な手法の必要性が高まっています。 本研究では、このニーズに対応するため、制約のない音声スプライシング検出への第一歩を踏み出すことを目的とする。スプライシングを偽装する可能性のある後処理操作の形で、様々な攻撃シナリオをシミュレートする。スプライシングの検出とローカライゼーションのために、Transformer sequence-to-sequence (seq2seq)ネットワークを提案する。我々の広範な評価により、提案手法は、スプライシング検出のための既存の専用アプローチ[3, 10]や、汎用ネットワークEfficientNet[28]やRegNet[25]を凌駕することが示された。


Freely available and easy-to-use audio editing tools make it straightforward to perform audio splicing. Convincing forgeries can be created by combining various speech samples from the same person. Detection of such splices is important both in the public sector when considering misinformation, and in a legal context to verify the integrity of evidence. Unfortunately, most existing detection algorithms for audio splicing use handcrafted features and make specific assumptions. However, criminal investigators are often faced with audio samples from unconstrained sources with unknown characteristics, which raises the need for more generally applicable methods. With this work, we aim to take a first step towards unconstrained audio splicing detection to address this need. We simulate various attack scenarios in the form of post-processing operations that may disguise splicing. We propose a Transformer sequence-to-sequence (seq2seq) network for splicing detection and localization. Our extensive evaluation shows that the proposed method outperforms existing dedicated approaches for splicing detection [3, 10] as well as the general-purpose networks EfficientNet [28] and RegNet [25].


著者 Denise Moussa,Germans Hirsch,Christian Riess
発行日 2024-05-03 14:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS パーマリンク