Application of ASV for Voice Identification after VC and Duration Predictor Improvement in TTS Models

要約

生体認証セキュリティの分野で最も重要なコンポーネントの 1 つは、話者の音声に基づく自動話者認証システムです。
ASV を単独で、または他の AI モデルと組み合わせて利用することが可能です。
現代では、ニューラル ネットワークの質と量は飛躍的に増加しています。
同時に、音声変換やテキスト読み上げモデルを使用してデータを操作することを目的としたシステムの数も増えています。
音声バイオメトリクス偽造の分野は、SSTC、ASVSpoof、SingFake などの多くの課題によって支援されています。
この論文では、自動話者検証システムを紹介します。
私たちのモデルの主な目的は、ピッチ、エネルギー、音素の長さなど、ターゲット話者の声の重要な特性に関する情報を取得するために、ターゲット話者の音声からエンベディングを抽出することです。
この情報は、現在開発中のマルチボイス TTS パイプラインで使用されます。
ただし、このモデルは、音声変換を受けたユーザーの声を検証するために SSTC チャレンジ内で使用され、EER 20.669 が実証されました。

要約(オリジナル)

One of the most crucial components in the field of biometric security is the automatic speaker verification system, which is based on the speaker’s voice. It is possible to utilise ASVs in isolation or in conjunction with other AI models. In the contemporary era, the quality and quantity of neural networks are increasing exponentially. Concurrently, there is a growing number of systems that aim to manipulate data through the use of voice conversion and text-to-speech models. The field of voice biometrics forgery is aided by a number of challenges, including SSTC, ASVSpoof, and SingFake. This paper presents a system for automatic speaker verification. The primary objective of our model is the extraction of embeddings from the target speaker’s audio in order to obtain information about important characteristics of his voice, such as pitch, energy, and the duration of phonemes. This information is used in our multivoice TTS pipeline, which is currently under development. However, this model was employed within the SSTC challenge to verify users whose voice had undergone voice conversion, where it demonstrated an EER of 20.669.

arxiv情報

著者 Borodin Kirill Nikolayevich,Kudryavtsev Vasiliy Dmitrievich,Mkrtchian Grach Maratovich,Gorodnichev Mikhail Genadievich,Korzh Dmitrii Sergeevich
発行日 2024-06-27 15:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク