Study of detecting behavioral signatures within DeepFake videos

要約

エンターテイメント、コミュニケーション、トレーニング、広告など、さまざまな目的で人々が話している合成ビデオ画像の生成には強い関心が寄せられています。
ディープフェイク生成モデルの開発により、合成ビデオ画像は、自然にキャプチャされたビデオと肉眼で視覚的に区別できなくなる日も近いでしょう。
さらに、より慎重な法医学的視覚分析を回避するために、多くの方法が改良され続けています。
一部のディープ フェイク ビデオは、顔の人形劇を使用して作成されます。これは、俳優の動きを通じて合成画像の頭と顔を直接制御し、俳優が別の人物の画像を「操り人形」にすることを可能にします。
この論文では、話者の視覚的な外観を制御し、別のソースから行動信号を転送することによって、ある人の動きを元の話者から区別できるかどうかという問題に取り組みます。
私たちは、1) 異なる人物が異なる発話を話していることに由来する合成画像、2) 同じ人物が異なる発話を話していることに由来する合成画像、3) 別の人物が同じ発話を話していることに由来する合成画像を比較することによって研究を実施します。
私たちの調査によると、3 つのケースすべてにおいて、合成ビデオは元のソースビデオよりも現実味が低く、魅力が少ないと見なされていることがわかりました。
私たちの結果は、人の見た目とは別に、人の動きから検出可能な行動の特徴が存在する可能性があり、この行動の特徴をディープフェイクと適切に撮影されたビデオを区別するために使用できることを示しています。

要約(オリジナル)

There is strong interest in the generation of synthetic video imagery of people talking for various purposes, including entertainment, communication, training, and advertisement. With the development of deep fake generation models, synthetic video imagery will soon be visually indistinguishable to the naked eye from a naturally capture video. In addition, many methods are continuing to improve to avoid more careful, forensic visual analysis. Some deep fake videos are produced through the use of facial puppetry, which directly controls the head and face of the synthetic image through the movements of the actor, allow the actor to ‘puppet’ the image of another. In this paper, we address the question of whether one person’s movements can be distinguished from the original speaker by controlling the visual appearance of the speaker but transferring the behavior signals from another source. We conduct a study by comparing synthetic imagery that: 1) originates from a different person speaking a different utterance, 2) originates from the same person speaking a different utterance, and 3) originates from a different person speaking the same utterance. Our study shows that synthetic videos in all three cases are seen as less real and less engaging than the original source video. Our results indicate that there could be a behavioral signature that is detectable from a person’s movements that is separate from their visual appearance, and that this behavioral signature could be used to distinguish a deep fake from a properly captured video.

arxiv情報

著者 Qiaomu Miao,Sinhwa Kang,Stacy Marsella,Steve DiPaola,Chao Wang,Ari Shapiro
発行日 2024-08-08 16:12:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク