要約
音声ディープフェイク検出 (ADD) モデルに説明を追加すると、意思決定プロセスに関する洞察が得られ、現実世界への応用が強化されます。
この論文では、トランスフォーマーベースの ADD モデルの予測を分析するための関連性ベースの説明可能な AI (XAI) 手法を提案します。
定量的な忠実性メトリクスと部分スプーフィング テストを使用して、標準的な Grad-CAM および SHAP ベースの方法と比較して、オーディオ内のさまざまな時間領域の相対的な重要性を包括的に分析します。
限られた発話のみを研究する以前の研究とは異なり、大規模なデータセットを検討したところ、XAI 手法の説明が異なることがわかりました。
提案された関連性ベースの XAI 手法は、さまざまなメトリックに関して全体的に最高のパフォーマンスを発揮します。
音声/非音声、音声コンテンツ、および音声のオンセット/オフセットの相対的な重要性に関するさらなる調査により、限られた発話の分析から得られた XAI の結果は、大規模なデータセットで評価した場合には必ずしも当てはまらないことが示唆されています。
要約(オリジナル)
Adding explanations to audio deepfake detection (ADD) models will boost their real-world application by providing insight on the decision making process. In this paper, we propose a relevancy-based explainable AI (XAI) method to analyze the predictions of transformer-based ADD models. We compare against standard Grad-CAM and SHAP-based methods, using quantitative faithfulness metrics as well as a partial spoof test, to comprehensively analyze the relative importance of different temporal regions in an audio. We consider large datasets, unlike previous works where only limited utterances are studied, and find that the XAI methods differ in their explanations. The proposed relevancy-based XAI method performs the best overall on a variety of metrics. Further investigation on the relative importance of speech/non-speech, phonetic content, and voice onsets/offsets suggest that the XAI results obtained from analyzing limited utterances don’t necessarily hold when evaluated on large datasets.
arxiv情報
著者 | Petr Grinberg,Ankur Kumar,Surya Koppisetti,Gaurav Bharaj |
発行日 | 2025-01-23 18:00:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google