要約
文章を部分的に操作すると、その意味が大きく変わってしまいます。
最近の研究では、部分的にスプーフィングされた音声について訓練された対策 (CM) がそのようなスプーフィングを効果的に検出できることが示されています。
しかし、CM の意思決定プロセスに関する現在の理解は限られています。
Grad-CAMを活用し、CMの意思決定を解釈するための定量的な分析指標を導入します。
CM は、本物のオーディオと偽のオーディオを連結するときに作成されるトランジション領域のアーティファクトを優先していることがわかりました。
この焦点は、完全にスプーフィングされた音声でトレーニングされた CM の焦点とは異なります。CM は、本物の部分とスプーフィングされた部分のパターンの違いに焦点を当てています。
私たちのさらなる調査により、正しい予測または誤った予測を行う際の CM の焦点のさまざまな性質が説明されます。
これらの洞察は、CM モデルの設計とデータセットの作成の基礎を提供します。
さらに、この研究は、これまで十分に研究されていなかった部分的なスプーフィング音声検出の分野における解釈可能性の基礎を築きます。
要約(オリジナル)
Partially manipulating a sentence can greatly change its meaning. Recent work shows that countermeasures (CMs) trained on partially spoofed audio can effectively detect such spoofing. However, the current understanding of the decision-making process of CMs is limited. We utilize Grad-CAM and introduce a quantitative analysis metric to interpret CMs’ decisions. We find that CMs prioritize the artifacts of transition regions created when concatenating bona fide and spoofed audio. This focus differs from that of CMs trained on fully spoofed audio, which concentrate on the pattern differences between bona fide and spoofed parts. Our further investigation explains the varying nature of CMs’ focus while making correct or incorrect predictions. These insights provide a basis for the design of CM models and the creation of datasets. Moreover, this work lays a foundation of interpretability in the field of partial spoofed audio detection that has not been well explored previously.
arxiv情報
著者 | Tianchi Liu,Lin Zhang,Rohan Kumar Das,Yi Ma,Ruijie Tao,Haizhou Li |
発行日 | 2024-06-04 16:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google