要約
ASVspoof シリーズの第 5 版である ASVspoof5 は、世界最大のオーディオ セキュリティ課題の 1 つです。
本物の発話となりすましの発話を区別するための対策(CM)の開発を進めることを目的としています。
このペーパーでは、ASVspoof5 Track1 のオープン状態に直接対応する、オープンドメインのオーディオ ディープフェイク検出の問題に対処することに焦点を当てます。
まず、データ拡張、データ拡張、自己教師あり学習 (SSL) 機能を含む、ASVspoof5 上のさまざまな CM を包括的に調査します。
ASVspoof5 データセットの高周波数ギャップ特性のため、CM の堅牢性を向上させるために特定の周波数帯域をマスクするデータ拡張手法である周波数マスクを導入します。
さまざまなスケールの時間情報と複数の SSL 機能を組み合わせた実験では、ASVspoof 5 Track 1 評価進捗セットで minDCF 0.0158 および EER 0.55% を達成しました。
要約(オリジナル)
ASVspoof5, the fifth edition of the ASVspoof series, is one of the largest global audio security challenges. It aims to advance the development of countermeasure (CM) to discriminate bonafide and spoofed speech utterances. In this paper, we focus on addressing the problem of open-domain audio deepfake detection, which corresponds directly to the ASVspoof5 Track1 open condition. At first, we comprehensively investigate various CM on ASVspoof5, including data expansion, data augmentation, and self-supervised learning (SSL) features. Due to the high-frequency gaps characteristic of the ASVspoof5 dataset, we introduce Frequency Mask, a data augmentation method that masks specific frequency bands to improve CM robustness. Combining various scale of temporal information with multiple SSL features, our experiments achieved a minDCF of 0.0158 and an EER of 0.55% on the ASVspoof 5 Track 1 evaluation progress set.
arxiv情報
著者 | Yuankun Xie,Xiaopeng Wang,Zhiyong Wang,Ruibo Fu,Zhengqi Wen,Haonan Cheng,Long Ye |
発行日 | 2024-08-13 14:15:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google