Active Light Modulation to Counter Manipulation of Speech Visual Content

要約

有名なスピーチビデオは、そのアクセシビリティと影響力のために、偽造の主要なターゲットです。
この作業は、スピーカーのアイデンティティと唇と顔の動きの視覚的な偽造からライブスピーチビデオを保護するための低オーバーヘッドで目立たないシステムであるSpotlightを提案します。
デジタルドメインで動作する主な改ざん検出方法とは異なり、Spotlightはイベントサイトに動的な物理的署名を作成し、知覚できない変調光を介してすべてのビデオ録画に埋め込みます。
これらの物理的な署名は、スピーカーのアイデンティティや顔の動きなど、スピーチイベントに固有の意味的に意味のある機能をエンコードし、スプーフィングを防ぐために暗号化されています。
署名は、下流のビデオから抽出され、描かれた音声コンテンツに対して検証されて、その完全性を確認できます。
スポットライトの重要な要素には、(1)局所的なハッシュに基づく非常にコンパクトな(つまり、150ビット)、ポーズ不変の音声ビデオ機能を生成するためのフレームワークが含まれます。
(2)ビデオとライブの両方で認知できないまま、200 bps以上をビデオに埋め込む光学変調スキーム。
広範なビデオデータセットでのプロトタイプ実験は、SpotlightがAUCS $ \ GEQ $ 0.99を達成し、偽造されたビデオの検出における全体的な真の正のレートを達成することを示しています。
さらに、スポットライトは、記録条件、ビデオ後の処理技術、およびビデオ機能抽出方法に対するホワイトボックスの敵対的攻撃にわたって非常に堅牢です。

要約(オリジナル)

High-profile speech videos are prime targets for falsification, owing to their accessibility and influence. This work proposes Spotlight, a low-overhead and unobtrusive system for protecting live speech videos from visual falsification of speaker identity and lip and facial motion. Unlike predominant falsification detection methods operating in the digital domain, Spotlight creates dynamic physical signatures at the event site and embeds them into all video recordings via imperceptible modulated light. These physical signatures encode semantically-meaningful features unique to the speech event, including the speaker’s identity and facial motion, and are cryptographically-secured to prevent spoofing. The signatures can be extracted from any video downstream and validated against the portrayed speech content to check its integrity. Key elements of Spotlight include (1) a framework for generating extremely compact (i.e., 150-bit), pose-invariant speech video features, based on locality-sensitive hashing; and (2) an optical modulation scheme that embeds >200 bps into video while remaining imperceptible both in video and live. Prototype experiments on extensive video datasets show Spotlight achieves AUCs $\geq$ 0.99 and an overall true positive rate of 100% in detecting falsified videos. Further, Spotlight is highly robust across recording conditions, video post-processing techniques, and white-box adversarial attacks on its video feature extraction methodologies.

arxiv情報

著者 Hadleigh Schwartz,Xiaofeng Yan,Charles J. Carver,Xia Zhou
発行日 2025-04-30 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク