要約
Audio Deepfake Detection(ADD)モデルに説明を追加すると、意思決定プロセスに関する洞察を提供することにより、実際のアプリケーションが向上します。
この論文では、変圧器ベースのADDモデルの予測を分析するための関連性ベースの説明可能なAI(XAI)メソッドを提案します。
定量的な忠実さのメトリックと部分的なスプーフィングテストを使用して、標準のグラッドカムベースの方法とSHAPベースの方法と比較して、オーディオ内の異なる時間領域の相対的な重要性を包括的に分析します。
限られた発話のみが研究されている以前の作品とは異なり、Xaiメソッドが説明が異なることを発見した、大きなデータセットを考慮します。
提案されている関連性ベースのXAIメソッドは、さまざまなメトリックで全体的に最高のパフォーマンスを発揮します。
音声/非音声、音声コンテンツ、音声の発症の相対的な重要性に関するさらなる調査は、限られた発話の分析から得られたXAIの結果が、大きなデータセットで評価されたときに必ずしも保持されないことを示唆しています。
要約(オリジナル)
Adding explanations to audio deepfake detection (ADD) models will boost their real-world application by providing insight on the decision making process. In this paper, we propose a relevancy-based explainable AI (XAI) method to analyze the predictions of transformer-based ADD models. We compare against standard Grad-CAM and SHAP-based methods, using quantitative faithfulness metrics as well as a partial spoof test, to comprehensively analyze the relative importance of different temporal regions in an audio. We consider large datasets, unlike previous works where only limited utterances are studied, and find that the XAI methods differ in their explanations. The proposed relevancy-based XAI method performs the best overall on a variety of metrics. Further investigation on the relative importance of speech/non-speech, phonetic content, and voice onsets/offsets suggest that the XAI results obtained from analyzing limited utterances don’t necessarily hold when evaluated on large datasets.
arxiv情報
著者 | Petr Grinberg,Ankur Kumar,Surya Koppisetti,Gaurav Bharaj |
発行日 | 2025-01-27 17:17:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google