Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

要約

ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠いです。
検出方法の開発を支援するために、偽の合成ビデオと音声のいくつかの公的に利用可能なデータベースが構築されました。
しかし、既存のデータベースは通常、視覚または音声のモダリティに焦点を当てており、ディープフェイクが実際に実在の人物になりすますことができるという証拠は提供されていません。
この論文では、唇と音声がよく同期しており、ビデオの視覚的品質と音声品質が高い、ディープフェイク SWAN-DF の最初の現実的なオーディオビジュアル データベースを紹介します。
私たちは、DeepFaceLab のいくつかのモデルと、顔交換用のブレンド技術と音声変換用の HiFiVC、DiffVC、YourTTS、および FreeVC モデルを使用して、さまざまな ID を持つ本物のビデオの公開されている SWAN データセットを取得して、音声と映像のディープフェイクを作成しました。
公開されている音声データセット LibriTTS から、いくつかの最新のテキスト読み上げメソッド (YourTTS、Adaspeech、TorToiSe) を使用して、音声ディープフェイクのみの別個のデータベース LibriTTS-DF も作成しました。
私たちは、SpeechBrain の ECAPA-TDNN ベースのモデルなど、最先端の話者認識システムの合成音声に対する脆弱性を実証します。
同様に、MobileFaceNet アーキテクチャに基づく顔認識システムを、ビジュアルディープフェイクのいくつかのバリエーションに対してテストしました。
脆弱性評価では、既存の事前トレーニング済みディープフェイク モデルを特定のアイデンティティに合わせて調整することで、90% 以上の確率で顔と話者認識システムをうまくなりすまし、特定の人物の非常にリアルな見た目と音声のフェイク ビデオを実現できることが示されました。

要約(オリジナル)

The task of deepfakes detection is far from being solved by speech or vision researchers. Several publicly available databases of fake synthetic video and speech were built to aid the development of detection methods. However, existing databases typically focus on visual or voice modalities and provide no proof that their deepfakes can in fact impersonate any real person. In this paper, we present the first realistic audio-visual database of deepfakes SWAN-DF, where lips and speech are well synchronized and video have high visual and audio qualities. We took the publicly available SWAN dataset of real videos with different identities to create audio-visual deepfakes using several models from DeepFaceLab and blending techniques for face swapping and HiFiVC, DiffVC, YourTTS, and FreeVC models for voice conversion. From the publicly available speech dataset LibriTTS, we also created a separate database of only audio deepfakes LibriTTS-DF using several latest text to speech methods: YourTTS, Adaspeech, and TorToiSe. We demonstrate the vulnerability of a state of the art speaker recognition system, such as ECAPA-TDNN-based model from SpeechBrain, to the synthetic voices. Similarly, we tested face recognition system based on the MobileFaceNet architecture to several variants of our visual deepfakes. The vulnerability assessment show that by tuning the existing pretrained deepfake models to specific identities, one can successfully spoof the face and speaker recognition systems in more than 90% of the time and achieve a very realistic looking and sounding fake video of a given person.

arxiv情報

著者 Pavel Korshunov,Haolin Chen,Philip N. Garner,Sebastien Marcel
発行日 2023-11-29 14:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 パーマリンク