Audios Don’t Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection

要約

人工知能技術の急速な発展に伴い、オーディオ分野でのディープフェイク技術の適用が徐々に増加しており、その結果、幅広いセキュリティリスクが生じています。
特に金融や社会保障の分野では、ディープフェイク音声の悪用が深刻な懸念を引き起こしている。
この課題に対処するために、この研究では、マルチ周波数チャネル アテンション メカニズム (MFCA) と 2D 離散コサイン変換 (DCT) に基づくオーディオ ディープフェイク検出方法を提案します。
この方法では、オーディオ信号をメルスペクトログラムに処理し、MobileNet V2 を使用して深い特徴を抽出し、それを MFCA モジュールと組み合わせてオーディオ信号内のさまざまな周波数チャネルに重み付けを行うことにより、オーディオ信号内のきめの細かい周波数領域の特徴を効果的にキャプチャできます。
偽オーディオの分類機能を強化します。
実験結果は、従来の方法と比較して、この研究で提案されたモデルが精度、精度、再現率、F1スコアおよびその他の指標において大きな利点を示すことを示しています。
特に複雑な音声シナリオでは、この方法はより強力な堅牢性と一般化機能を示し、音声ディープフェイク検出のための新しいアイデアを提供し、重要な実用的な応用価値をもたらします。
将来的には、音声ディープフェイク検出の精度と汎用化機能をさらに向上させるために、より高度な音声検出テクノロジーと最適化戦略が検討される予定です。

要約(オリジナル)

With the rapid development of artificial intelligence technology, the application of deepfake technology in the audio field has gradually increased, resulting in a wide range of security risks. Especially in the financial and social security fields, the misuse of deepfake audios has raised serious concerns. To address this challenge, this study proposes an audio deepfake detection method based on multi-frequency channel attention mechanism (MFCA) and 2D discrete cosine transform (DCT). By processing the audio signal into a melspectrogram, using MobileNet V2 to extract deep features, and combining it with the MFCA module to weight different frequency channels in the audio signal, this method can effectively capture the fine-grained frequency domain features in the audio signal and enhance the Classification capability of fake audios. Experimental results show that compared with traditional methods, the model proposed in this study shows significant advantages in accuracy, precision,recall, F1 score and other indicators. Especially in complex audio scenarios, this method shows stronger robustness and generalization capabilities and provides a new idea for audio deepfake detection and has important practical application value. In the future, more advanced audio detection technologies and optimization strategies will be explored to further improve the accuracy and generalization capabilities of audio deepfake detection.

arxiv情報

著者 Yangguang Feng
発行日 2024-12-12 17:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク