要約
タイトル:DSVAE:合成音声検出のための解釈可能な分離表現
要約:
– 人間の話者から録音した音声と知覚的に区別できない高品質な合成音声信号を生成するツールが容易に利用可能である。
– 合成音声を検出するためにいくつかのアプローチが提案されているが、これらの多くは意思決定の根拠を提供せず、ディープラーニング方法をブラックボックスとして使用している。これは解釈可能性を制限している。
– 本研究では、2つの段階でトレーニングされた分離スペクトログラム変分自己エンコーダー(DSVAE)を提案し、合成音声を検出するために解釈可能な表現を生成する。DSVAEはまた、音声信号を区別するスペクトログラムの領域を強調表示するアクティベーションマップも生成する。
– 著者たちはASVspoof2019データセットを用いてDSVAEから得られた表現を評価した。その結果、6つの既知の音声合成器と11のうち10つの未知の音声合成器からの合成音声検出において高い精度(>98%)を示した。
– また、著者たちは17の異なる音声合成器からDSVAEから得られた表現を可視化し、それらが解釈可能であり、互いに真正音声と合成音声を区別することを検証した。
要約(オリジナル)
Tools to generate high quality synthetic speech signal that is perceptually indistinguishable from speech recorded from human speakers are easily available. Several approaches have been proposed for detecting synthetic speech. Many of these approaches use deep learning methods as a black box without providing reasoning for the decisions they make. This limits the interpretability of these approaches. In this paper, we propose Disentangled Spectrogram Variational Auto Encoder (DSVAE) which is a two staged trained variational autoencoder that processes spectrograms of speech using disentangled representation learning to generate interpretable representations of a speech signal for detecting synthetic speech. DSVAE also creates an activation map to highlight the spectrogram regions that discriminate synthetic and bona fide human speech signals. We evaluated the representations obtained from DSVAE using the ASVspoof2019 dataset. Our experimental results show high accuracy (>98%) on detecting synthetic speech from 6 known and 10 out of 11 unknown speech synthesizers. We also visualize the representation obtained from DSVAE for 17 different speech synthesizers and verify that they are indeed interpretable and discriminate bona fide and synthetic speech from each of the synthesizers.
arxiv情報
著者 | Amit Kumar Singh Yadav,Kratika Bhagtani,Ziyue Xiang,Paolo Bestagini,Stefano Tubaro,Edward J. Delp |
発行日 | 2023-04-06 18:37:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI