All-for-One and One-For-All: Deep learning-based feature fusion for Synthetic Speech Detection

要約

深層学習とコンピューター ビジョンの最近の進歩により、マルチメディア コンテンツの合成と偽造がこれまで以上に簡単になり、悪意のあるユーザーによる脅威や危険が生じる可能性があります。
オーディオ分野では、音声ディープフェイク生成技術の発展を目の当たりにしており、詐欺や個人情報の盗難などの悪用に対抗するための合成音声検出アルゴリズムの開発が求められています。
この論文では、合成音声検出タスクに関して文献で提案されている 3 つの異なる特徴セットを検討し、それらを融合して最先端のソリューションと比較して全体的に優れたパフォーマンスを達成するモデルを提示します。
このシステムは、フォレンジック攻撃に対する堅牢性と汎用化機能を証明するために、さまざまなシナリオとデータセットでテストされました。

要約(オリジナル)

Recent advances in deep learning and computer vision have made the synthesis and counterfeiting of multimedia content more accessible than ever, leading to possible threats and dangers from malicious users. In the audio field, we are witnessing the growth of speech deepfake generation techniques, which solicit the development of synthetic speech detection algorithms to counter possible mischievous uses such as frauds or identity thefts. In this paper, we consider three different feature sets proposed in the literature for the synthetic speech detection task and present a model that fuses them, achieving overall better performances with respect to the state-of-the-art solutions. The system was tested on different scenarios and datasets to prove its robustness to anti-forensic attacks and its generalization capabilities.

arxiv情報

著者 Daniele Mari,Davide Salvi,Paolo Bestagini,Simone Milani
発行日 2023-07-28 13:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.SD, eess.AS パーマリンク