AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge


音声の特徴に基づいて話者を識別する自動話者認証 (ASV) システムは、金融取引におけるユーザー認証、スマート デバイスの排他的アクセス制御、法医学的詐欺検出など、数多くの用途に使用されています。
しかし、深層学習アルゴリズムの進歩により、テキスト読み上げ (TTS) および音声変換 (VC) システムによる合成音声の生成が可能になり、ASV システムが潜在的な脆弱性にさらされています。
これに対抗するために、私たちは AASIST3 という新しいアーキテクチャを提案します。
Kolmogorov-Arnold ネットワーク、追加のレイヤー、エンコーダー、プリエンファシス技術を使用して既存の AASIST フレームワークを強化することにより、AASIST3 はパフォーマンスを 2 倍以上向上させます。
これは、閉状態で 0.5357、開状態で 0.1414 の minDCF 結果を示し、合成音声の検出を大幅に強化し、ASV セキュリティを向上させます。


Automatic Speaker Verification (ASV) systems, which identify speakers based on their voice characteristics, have numerous applications, such as user authentication in financial transactions, exclusive access control in smart devices, and forensic fraud detection. However, the advancement of deep learning algorithms has enabled the generation of synthetic audio through Text-to-Speech (TTS) and Voice Conversion (VC) systems, exposing ASV systems to potential vulnerabilities. To counteract this, we propose a novel architecture named AASIST3. By enhancing the existing AASIST framework with Kolmogorov-Arnold networks, additional layers, encoders, and pre-emphasis techniques, AASIST3 achieves a more than twofold improvement in performance. It demonstrates minDCF results of 0.5357 in the closed condition and 0.1414 in the open condition, significantly enhancing the detection of synthetic voices and improving ASV security.


著者 Kirill Borodin,Vasiliy Kudryavtsev,Dmitrii Korzh,Alexey Efimenko,Grach Mkrtchian,Mikhail Gorodnichev,Oleg Y. Rogov
発行日 2024-08-30 15:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク