要約
AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により、デジタル プラットフォームを管理することが重要かつ困難になっています。
ビデオ透かしは、ビデオに知覚できない信号を埋め込んで識別を可能にすることで、これらの課題に対処します。
ただし、まれなオープン ツールや手法は、効率、堅牢性、柔軟性の点で不十分であることがよくあります。
これらのギャップを減らすために、このホワイト ペーパーでは、ニューラル ビデオ透かしを挿入するための包括的なフレームワークであり、競争力のあるオープンソース モデルである Video Seal を紹介します。
私たちのアプローチは、エンベッダーとエクストラクターを共同でトレーニングしながら、ビデオ コーデックなどの間で変換を適用することで透かしの堅牢性を確保します。
このトレーニングは多段階であり、画像の事前トレーニング、ハイブリッドの事後トレーニング、抽出器の微調整が含まれます。
また、時間的透かし伝播も紹介します。これは、すべての高解像度フレームに透かしを入れる必要がなく、あらゆる画像透かしモデルを効率的なビデオ透かしモデルに変換する技術です。
速度、知覚不可能性、堅牢性の観点からこのアプローチの有効性を実証する実験結果を紹介します。
Video Seal は、特に幾何学的変換とビデオ圧縮を組み合わせた困難な歪みの下で、強力なベースラインと比較してより高い堅牢性を実現します。
さらに、トレーニング中のビデオ圧縮の影響や、さまざまなペイロードで動作するメソッドを比較する方法など、新しい洞察も提供します。
コードベース、モデル、公開デモを含むこの作業への貢献は、この分野でのさらなる研究開発を促進するために、寛容なライセンスの下でオープンソース化されています。
要約(オリジナル)
The proliferation of AI-generated content and sophisticated video editing tools has made it both important and challenging to moderate digital platforms. Video watermarking addresses these challenges by embedding imperceptible signals into videos, allowing for identification. However, the rare open tools and methods often fall short on efficiency, robustness, and flexibility. To reduce these gaps, this paper introduces Video Seal, a comprehensive framework for neural video watermarking and a competitive open-sourced model. Our approach jointly trains an embedder and an extractor, while ensuring the watermark robustness by applying transformations in-between, e.g., video codecs. This training is multistage and includes image pre-training, hybrid post-training and extractor fine-tuning. We also introduce temporal watermark propagation, a technique to convert any image watermarking model to an efficient video watermarking model without the need to watermark every high-resolution frame. We present experimental results demonstrating the effectiveness of the approach in terms of speed, imperceptibility, and robustness. Video Seal achieves higher robustness compared to strong baselines especially under challenging distortions combining geometric transformations and video compression. Additionally, we provide new insights such as the impact of video compression during training, and how to compare methods operating on different payloads. Contributions in this work – including the codebase, models, and a public demo – are open-sourced under permissive licenses to foster further research and development in the field.
arxiv情報
著者 | Pierre Fernandez,Hady Elsahar,I. Zeki Yalniz,Alexandre Mourachko |
発行日 | 2024-12-12 17:41:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google