Deepfake audio detection by speaker verification

要約

最近の深層学習の進歩のおかげで、今日では非常にリアルな合成音声を生成する高度な生成ツールが存在します。
しかし、そのようなツールが悪用される可能性があり、私たちの社会に深刻な脅威をもたらします。
そのため、合成音声検出は喫緊の研究課題となっており、最近ではさまざまな検出方法が提案されています。
残念ながら、トレーニング フェーズで見られなかったツールによって生成された合成オーディオに一般化することはほとんどないため、現実世界のシナリオに直面するのには適していません。
この作業では、特定の操作を参照せずに、スピーカーのバイオメトリック特性のみを活用する新しい検出アプローチを提案することにより、この問題を克服することを目指しています。
検出器は実際のデータのみでトレーニングされるため、一般化は自動的に保証されます。
提案されたアプローチは、市販の話者検証ツールに基づいて実装できます。
このようなソリューションを 3 つの一般的なテスト セットでテストし、優れたパフォーマンス、高い一般化能力、および音声障害に対する高い堅牢性を実現しました。

要約(オリジナル)

Thanks to recent advances in deep learning, sophisticated generation tools exist, nowadays, that produce extremely realistic synthetic speech. However, malicious uses of such tools are possible and likely, posing a serious threat to our society. Hence, synthetic voice detection has become a pressing research topic, and a large variety of detection methods have been recently proposed. Unfortunately, they hardly generalize to synthetic audios generated by tools never seen in the training phase, which makes them unfit to face real-world scenarios. In this work, we aim at overcoming this issue by proposing a new detection approach that leverages only the biometric characteristics of the speaker, with no reference to specific manipulations. Since the detector is trained only on real data, generalization is automatically ensured. The proposed approach can be implemented based on off-the-shelf speaker verification tools. We test several such solutions on three popular test sets, obtaining good performance, high generalization ability, and high robustness to audio impairment.

arxiv情報

著者 Alessandro Pianese,Davide Cozzolino,Giovanni Poggi,Luisa Verdoliva
発行日 2022-09-28 13:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク