要約
オーディオディープフェイクは、デジタルセキュリティと信頼に対する脅威の高まりを表しており、高度な生成モデルを活用して、本物の人間の声を密接に模倣する合成スピーチを生成します。
このような操作を検出することは、テスト中に遭遇するスプーフィング方法がトレーニング中に見られるものとは異なる場合があるオープンワールド条件下では特に困難です。
この作業では、生の波形で直接動作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案します。
私たちのモデルであるRawnetliteは、手作りの前処理なしでスペクトルと時間の両方の特徴をキャプチャするように設計された軽量の畳み込みと一時的なアーキテクチャです。
堅牢性を高めるために、複数のドメインからのデータを組み合わせ、焦点損失を採用して困難なサンプルまたは曖昧なサンプルを強調するトレーニング戦略を導入します。
さらに、コーデックベースの操作を組み込み、波形レベルのオーディオ増強(例:ピッチシフト、ノイズ、時間の伸びなど)を適用すると、現実的な音響条件下での大幅な一般化の改善が得られることを実証します。
提案されたモデルは、ドメイン内データ(FakeRorreal)で99.7%以上のF1および0.25%EERを達成し、困難な分散テストセット(AVSPOOF2021 + CODECFAKE)で最大83.4%F1を獲得します。
これらの調査結果は、多様なトレーニングデータ、カスタマイズされた客観的機能、および弾力性のある一般化可能なオーディオ偽造検出器の構築におけるオーディオ増強の重要性を強調しています。
コードモデルと前処理されたモデルは、https://iplab.dmi.unict.it/mfs/deepfakes/paperrawnet2025/で入手できます。
要約(オリジナル)
Audio deepfakes represent a growing threat to digital security and trust, leveraging advanced generative models to produce synthetic speech that closely mimics real human voices. Detecting such manipulations is especially challenging under open-world conditions, where spoofing methods encountered during testing may differ from those seen during training. In this work, we propose an end-to-end deep learning framework for audio deepfake detection that operates directly on raw waveforms. Our model, RawNetLite, is a lightweight convolutional-recurrent architecture designed to capture both spectral and temporal features without handcrafted preprocessing. To enhance robustness, we introduce a training strategy that combines data from multiple domains and adopts Focal Loss to emphasize difficult or ambiguous samples. We further demonstrate that incorporating codec-based manipulations and applying waveform-level audio augmentations (e.g., pitch shifting, noise, and time stretching) leads to significant generalization improvements under realistic acoustic conditions. The proposed model achieves over 99.7% F1 and 0.25% EER on in-domain data (FakeOrReal), and up to 83.4% F1 with 16.4% EER on a challenging out-of-distribution test set (AVSpoof2021 + CodecFake). These findings highlight the importance of diverse training data, tailored objective functions and audio augmentations in building resilient and generalizable audio forgery detectors. Code and pretrained models are available at https://iplab.dmi.unict.it/mfs/Deepfakes/PaperRawNet2025/.
arxiv情報
著者 | Andrea Di Pierno,Luca Guarnera,Dario Allegra,Sebastiano Battiato |
発行日 | 2025-04-29 16:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google