Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

要約

音声のクローン作成や、ある個人から別の個人へのリアルタイムの音声変換を可能にする、音声領域における生成 AI を巡る影響が高まっています。
このテクノロジーは重大な倫理的脅威をもたらし、プライバシーの侵害や虚偽表示につながる可能性があるため、ディープフェイク音声変換のために AI が生成した音声をリアルタイムで検出することが緊急に必要とされています。
上記の新たな問題に対処するために、この研究では、8 人の有名な人物からの実際の人間の音声と、検索ベースの音声変換を使用して相互に変換された彼らの音声で構成される DEEP-VOICE データセットが生成されました。
音声が本物であるか AI によって生成されたものであるかという二項分類問題として提示され、t 検定による時間音声特徴の統計分析により、大きく異なる分布があることが明らかになります。
ハイパーパラメータの最適化は、音声のソースを識別するために機械学習モデルに実装されています。
10 倍の相互検証で 208 個の個別の機械学習モデルをトレーニングした結果、Extreme Gradient Boosting モデルは平均分類精度 99.3% を達成でき、1 秒あたり約 0.004 ミリ秒で音声をリアルタイムで分類できることがわかりました。
スピーチの。
この研究のために生成されたすべてのデータは、AI 音声検出に関する将来の研究のために公開されます。

要約(オリジナル)

There are growing implications surrounding generative AI in the speech domain that enable voice cloning and real-time voice conversion from one individual to another. This technology poses a significant ethical threat and could lead to breaches of privacy and misrepresentation, thus there is an urgent need for real-time detection of AI-generated speech for DeepFake Voice Conversion. To address the above emerging issues, the DEEP-VOICE dataset is generated in this study, comprised of real human speech from eight well-known figures and their speech converted to one another using Retrieval-based Voice Conversion. Presenting as a binary classification problem of whether the speech is real or AI-generated, statistical analysis of temporal audio features through t-testing reveals that there are significantly different distributions. Hyperparameter optimisation is implemented for machine learning models to identify the source of speech. Following the training of 208 individual machine learning models over 10-fold cross validation, it is found that the Extreme Gradient Boosting model can achieve an average classification accuracy of 99.3% and can classify speech in real-time, at around 0.004 milliseconds given one second of speech. All data generated for this study is released publicly for future research on AI speech detection.

arxiv情報

著者 Jordan J. Bird,Ahmad Lotfi
発行日 2023-08-24 12:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS パーマリンク