要約
今日の生成ニューラル ネットワークでは、高品質の合成音声を大規模に作成できます。
この新しいテクノロジーの創造的な使用を歓迎しますが、リスクも認識する必要があります。
合成音声は金銭や個人情報の盗難に悪用されるため、幅広いディープフェイク識別ツールが必要です。
さらに、以前の研究では、目に見えないオーディオジェネレーターに一般化する深層分類器の能力が限られていると報告しました。
私たちは、現在のオーディオ ジェネレーターの周波数領域のフィンガープリントを研究します。
発見された周波数フットプリントに基づいて、一般化する優れた軽量検出器をトレーニングします。
WaveFake データセットと拡張バージョンの改善された結果を報告します。
この分野の急速な進歩を説明するために、新しい Avocodo ネットワークと BigVGAN ネットワークから抽出されたサンプルをさらに考慮することにより、WaveFake データセットを拡張します。
説明の目的で、補足資料にはジェネレーター アーティファクトのオーディオ サンプルが含まれています。
要約(オリジナル)
Today’s generative neural networks allow the creation of high-quality synthetic speech at scale. While we welcome the creative use of this new technology, we must also recognize the risks. As synthetic speech is abused for monetary and identity theft, we require a broad set of deepfake identification tools. Furthermore, previous work reported a limited ability of deep classifiers to generalize to unseen audio generators. We study the frequency domain fingerprints of current audio generators. Building on top of the discovered frequency footprints, we train excellent lightweight detectors that generalize. We report improved results on the WaveFake dataset and an extended version. To account for the rapid progress in the field, we extend the WaveFake dataset by additionally considering samples drawn from the novel Avocodo and BigVGAN networks. For illustration purposes, the supplementary material contains audio samples of generator artifacts.
arxiv情報
著者 | Konstantin Gasenzer,Moritz Wolter |
発行日 | 2024-04-09 16:22:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google