要約
ビデオ拡散モデルの急速な台頭により、非常にリアルで時間的にコヒーレントなビデオの生成が可能になり、コンテンツの真正性、出所、悪用に関する重大な懸念が高まっている。既存の電子透かしアプローチは、受動的であれ、ポストホックであれ、あるいは画像ベースの技術から転用されたものであれ、フレームの挿入、削除、並べ替えなどの動画特有の操作に耐えるのに苦労することが多く、一般的に視覚的な品質を低下させる。この研究では、VIDSTAMPを紹介する。VIDSTAMPは、フレーム単位またはセグメント単位のメッセージを、時間的に認識可能なビデオ拡散モデルの潜在空間に直接埋め込む電子透かしのフレームワークである。VIDSTAMPは、2段階のパイプラインを通してモデルのデコーダを微調整することにより、まず空間的メッセージ分離を促進するために静止画像データセット上で行い、次に時間的一貫性を復元するために合成されたビデオシーケンス上で行う。3次元畳み込みや時間的注意のようなアーキテクチャの構成要素を活用することで、我々の方法は、追加の推論コストを課すことなく、一般的な歪みや改ざんに対して同等のロバスト性を維持しながら、先行する方法よりも優れた知覚品質を提供します。VIDSTAMPはビデオあたり768ビット(フレームあたり48ビット)を95.0%のビット精度で埋め込み、-166.65の対数P値(低いほど良い)を達成し、0.836のビデオ品質スコアを維持します。これは透かしなしの出力(0.838)に匹敵し、容量と品質のトレードオフにおいて先行手法を上回ります。コードコード\URL{https://github.com/SPIN-UMass/VidStamp}
要約(オリジナル)
The rapid rise of video diffusion models has enabled the generation of highly realistic and temporally coherent videos, raising critical concerns about content authenticity, provenance, and misuse. Existing watermarking approaches, whether passive, post-hoc, or adapted from image-based techniques, often struggle to withstand video-specific manipulations such as frame insertion, dropping, or reordering, and typically degrade visual quality. In this work, we introduce VIDSTAMP, a watermarking framework that embeds per-frame or per-segment messages directly into the latent space of temporally-aware video diffusion models. By fine-tuning the model’s decoder through a two-stage pipeline, first on static image datasets to promote spatial message separation, and then on synthesized video sequences to restore temporal consistency, VIDSTAMP learns to embed high-capacity, flexible watermarks with minimal perceptual impact. Leveraging architectural components such as 3D convolutions and temporal attention, our method imposes no additional inference cost and offers better perceptual quality than prior methods, while maintaining comparable robustness against common distortions and tampering. VIDSTAMP embeds 768 bits per video (48 bits per frame) with a bit accuracy of 95.0%, achieves a log P-value of -166.65 (lower is better), and maintains a video quality score of 0.836, comparable to unwatermarked outputs (0.838) and surpassing prior methods in capacity-quality tradeoffs. Code: Code: \url{https://github.com/SPIN-UMass/VidStamp}
arxiv情報
| 著者 | Mohammadreza Teymoorianfard,Shiqing Ma,Amir Houmansadr |
| 発行日 | 2025-05-02 17:35:03+00:00 |
| arxivサイト | arxiv_id(pdf) |