要約
汎化は、現在のオーディオディープフェイク検出器の主な問題であり、配信外のデータで信頼できる結果を提供するのに苦労している。本稿では、特に汎化能力に着目して、音声ディープフェイク検出のための大規模な事前学習済みモデルの可能性を研究する。この目的のために、検出問題は話者検証の枠組みで再定義され、偽音声はテスト対象の音声サンプルと主張されたIDの音声との不一致によって暴露される。このパラダイムでは、学習時に偽音声サンプルを必要としないため、生成方法との関連性を根本から断ち切ることができ、完全な汎化能力を確保することができる。特徴量は、事前に訓練された汎用的な大規模モデルによって抽出されるため、特定の偽検出や話者検証データセットでの訓練や微調整は不要です。検出時に必要なのは、テスト対象のIDの限られた音声断片のセットのみである。コミュニティで広く使われているいくつかのデータセットで実験した結果、事前訓練されたモデルに基づく検出器は優れた性能を達成し、強力な汎化能力を示し、分布内データでは教師あり手法に匹敵し、分布外データではそれらを大きく上回ることがわかった。
要約(オリジナル)
Generalization is a main issue for current audio deepfake detectors, which struggle to provide reliable results on out-of-distribution data. Given the speed at which more and more accurate synthesis methods are developed, it is very important to design techniques that work well also on data they were not trained for.In this paper we study the potential of large-scale pre-trained models for audio deepfake detection, with special focus on generalization ability. To this end, the detection problem is reformulated in a speaker verification framework and fake audios are exposed by the mismatch between the voice sample under test and the voice of the claimed identity. With this paradigm, no fake speech sample is necessary in training, cutting off any link with the generation method at the root, and ensuring full generalization ability. Features are extracted by general-purpose large pre-trained models, with no need for training or fine-tuning on specific fake detection or speaker verification datasets. At detection time only a limited set of voice fragments of the identity under test is required. Experiments on several datasets widespread in the community show that detectors based on pre-trained models achieve excellent performance and show strong generalization ability, rivaling supervised methods on in-distribution data and largely overcoming them on out-of-distribution data.
arxiv情報
著者 | Alessandro Pianese,Davide Cozzolino,Giovanni Poggi,Luisa Verdoliva |
発行日 | 2024-05-03 15:27:11+00:00 |
arxivサイト | arxiv_id(pdf) |