Collaborative Watermarking for Adversarial Speech Synthesis

要約

ニューラル音声合成の進歩により、人間の自然さに近いだけでなく、少ないデータで即座に音声のクローンを作成でき、事前にトレーニングされたモデルが利用可能で非常にアクセスしやすいテクノロジーがもたらされました。
当然のことながら、生成されたコンテンツが大量に生成される可能性があるため、合成音声の検出と透かしの必要性が高まります。
最近、合成音声検出に関する多大な研究努力が、受動的な対策に焦点を当てた自動話​​者認証およびなりすまし対策チャレンジ (ASVspoof) に関連して行われています。
この論文では、生成された音声の検出を補完する視点をとります。つまり、合成システムは、別のマシンによる検出を支援しながら、人間の聞き手には透過的な方法で、生成された音声に透かしを入れるために積極的に努力する必要があります。
我々は、合成音声透かしの協調トレーニングスキームを提案し、ASVspoof 2021 ベースライン対策モデルと連携する HiFi-GAN ニューラルボコーダーが、従来の分類器トレーニングと比較して検出パフォーマンスを一貫して向上させることを示します。
さらに、ノイズや時間延長に対する堅牢性を高めるために、共同トレーニングを拡張戦略と組み合わせる方法を示します。
最後に、リスニングテストでは、共同トレーニングがボコード音声の知覚品質にほとんど悪影響を及ぼさないことが実証されました。

要約(オリジナル)

Advances in neural speech synthesis have brought us technology that is not only close to human naturalness, but is also capable of instant voice cloning with little data, and is highly accessible with pre-trained models available. Naturally, the potential flood of generated content raises the need for synthetic speech detection and watermarking. Recently, considerable research effort in synthetic speech detection has been related to the Automatic Speaker Verification and Spoofing Countermeasure Challenge (ASVspoof), which focuses on passive countermeasures. This paper takes a complementary view to generated speech detection: a synthesis system should make an active effort to watermark the generated speech in a way that aids detection by another machine, but remains transparent to a human listener. We propose a collaborative training scheme for synthetic speech watermarking and show that a HiFi-GAN neural vocoder collaborating with the ASVspoof 2021 baseline countermeasure models consistently improves detection performance over conventional classifier training. Furthermore, we demonstrate how collaborative training can be paired with augmentation strategies for added robustness against noise and time-stretching. Finally, listening tests demonstrate that collaborative training has little adverse effect on perceptual quality of vocoded speech.

arxiv情報

著者 Lauri Juvela,Xin Wang
発行日 2024-01-02 09:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS パーマリンク