要約
操作された映像には、映像信号と音声信号の間に微妙な不一致があることが多い。我々は、異常検出に基づき、これらの矛盾を識別することができ、ラベル付けされていない実データのみを用いて訓練することができるビデオフォレンジック手法を提案する。本手法では、映像フレームと音声の時間的同期を捉える特徴セットを用いて、自己回帰モデルを学習させ、音声・映像の特徴量のシーケンスを生成する。そして、テスト時にモデルが低確率と判断した動画にフラグを立てる。このモデルは、実映像を用いた学習にもかかわらず、操作された音声映像の検出タスクで高い性能を得ることができました。プロジェクトサイト: https://cfeng16.github.io/audio-visual-forensics
要約(オリジナル)
Manipulated videos often contain subtle inconsistencies between their visual and audio signals. We propose a video forensics method, based on anomaly detection, that can identify these inconsistencies, and that can be trained solely using real, unlabeled data. We train an autoregressive model to generate sequences of audio-visual features, using feature sets that capture the temporal synchronization between video frames and sound. At test time, we then flag videos that the model assigns low probability. Despite being trained entirely on real videos, our model obtains strong performance on the task of detecting manipulated speech videos. Project site: https://cfeng16.github.io/audio-visual-forensics
arxiv情報
著者 | Chao Feng,Ziyang Chen,Andrew Owens |
発行日 | 2023-01-04 18:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |