Easy, Interpretable, Effective: openSMILE for voice deepfake detection

要約

この論文では、音声の信頼性とディープフェイク検出の分野における事実上の標準である最新の ASVspoof5 データセットにおける攻撃が、非常に単純化された機能の小さなサブセットを使用して驚くべき精度で識別できることを実証します。
これらは openSMILE ライブラリから派生したもので、スカラー値であり、計算が容易で、人間が解釈可能です。
たとえば、攻撃 A10 の無声セグメントの平均長は 0.09 \pm 0.02 ですが、本物のインスタンスの平均長は 0.18 \pm 0.07 です。
この機能のみを使用すると、しきい値分類器は攻撃 A10 に対して 10.3% の等誤り率 (EER) を達成します。
同様に、すべての攻撃で最大 0.8% の EER が達成され、全体の EER は 15.7 \pm 6.0% になります。
私たちはこれらの機能の一般化機能を調査し、その一部が主に同様の Text-to-Speech (TTS) アーキテクチャから発信された場合に、攻撃間で効果的に移行することを発見しました。
この発見は、音声スプーフィング対策が部分的には、個々の TTS システムの署名や指紋の識別と記憶の問題であることを示している可能性があります。
これにより、スプーフィング対策モデルと実際のアプリケーションにおけるその課題をより深く理解できるようになります。

要約(オリジナル)

In this paper, we demonstrate that attacks in the latest ASVspoof5 dataset — a de facto standard in the field of voice authenticity and deepfake detection — can be identified with surprising accuracy using a small subset of very simplistic features. These are derived from the openSMILE library, and are scalar-valued, easy to compute, and human interpretable. For example, attack A10`s unvoiced segments have a mean length of 0.09 \pm 0.02, while bona fide instances have a mean length of 0.18 \pm 0.07. Using this feature alone, a threshold classifier achieves an Equal Error Rate (EER) of 10.3% for attack A10. Similarly, across all attacks, we achieve up to 0.8% EER, with an overall EER of 15.7 \pm 6.0%. We explore the generalization capabilities of these features and find that some of them transfer effectively between attacks, primarily when the attacks originate from similar Text-to-Speech (TTS) architectures. This finding may indicate that voice anti-spoofing is, in part, a problem of identifying and remembering signatures or fingerprints of individual TTS systems. This allows to better understand anti-spoofing models and their challenges in real-world application.

arxiv情報

著者 Octavian Pascu,Dan Oneata,Horia Cucu,Nicolas M. Müller
発行日 2024-08-28 13:14:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク