Single and Multi-Speaker Cloned Voice Detection: From Perceptual to Learned Features

要約

合成音声クローン技術は近年大幅な進歩を遂げており、さまざまな潜在的な危害を引き起こしています。
小規模および大規模な金融詐欺から偽情報キャンペーンに至るまで、本物の声と合成された声を区別するための信頼できる方法の必要性が不可欠です。
本物の声と、特定の人物になりすますように設計されたクローンの声を区別するための 3 つのテクニックについて説明します。
これら 3 つのアプローチは、特徴抽出段階が異なります。低次元の知覚特徴は解釈可能性は高いですが精度は低く、一般的なスペクトル特徴は解釈可能性は低いですが精度は高くなります。
単一話者の音声でトレーニングされた場合と複数の音声でトレーニングされた場合のこれらのアプローチの有効性を示します。
学習された機能は一貫して 0% ~ 4% の等しいエラー率をもたらし、敵対的なロンダリングに対して適度に堅牢です。

要約(オリジナル)

Synthetic-voice cloning technologies have seen significant advances in recent years, giving rise to a range of potential harms. From small- and large-scale financial fraud to disinformation campaigns, the need for reliable methods to differentiate real and synthesized voices is imperative. We describe three techniques for differentiating a real from a cloned voice designed to impersonate a specific person. These three approaches differ in their feature extraction stage with low-dimensional perceptual features offering high interpretability but lower accuracy, to generic spectral features, and end-to-end learned features offering less interpretability but higher accuracy. We show the efficacy of these approaches when trained on a single speaker’s voice and when trained on multiple voices. The learned features consistently yield an equal error rate between 0% and 4%, and are reasonably robust to adversarial laundering.

arxiv情報

著者 Sarah Barrington,Romit Barua,Gautham Koorma,Hany Farid
発行日 2023-09-27 16:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク