BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

要約

テキストツービデオ(T2V)の生成モデルは、急速に進歩し、エンターテイメント、教育、マーケティングなどの分野で広範なアプリケーションを発見しました。
ただし、これらのモデルの敵対的な脆弱性はめったに調査されません。
T2V生成タスクでは、生成されたビデオには、環境要素、二次オブジェクト、追加の詳細など、テキストプロンプトで明示的に指定されていない実質的な冗長な情報が含まれており、悪意のある攻撃者が隠された有害なコンテンツを埋め込む機会を提供することがよくあります。
この固有の冗長性を活用して、T2V生成に合わせた最初のバックドア攻撃フレームワークであるBadvideoを紹介します。
私たちの攻撃は、2つの重要な戦略を通じてターゲットの敵対的な出力を設計することに焦点を当てています。(1)異なる空間的特徴を組み合わせて悪意のある情報をエンコードする時空間的構成。
(2)悪意のある情報を伝えるために、時間の経過とともに冗長な要素の変換を導入する動的要素変換。
これらの戦略に基づいて、攻撃者の悪意のあるターゲットは、ユーザーのテキスト指示とシームレスに統合され、高いステルス性を提供します。
さらに、ビデオの時間的次元を活用することにより、私たちの攻撃は、主に個々のフレーム内の空間情報を分析する従来のコンテンツモデレーションシステムを正常に回避します。
広範な実験は、BadVideoが元のセマンティクスを維持し、クリーンな入力の優れたパフォーマンスを維持しながら、高い攻撃の成功率を達成することを示しています。
全体として、私たちの仕事は、T2Vモデルの敵対的な脆弱性を明らかにし、潜在的なリスクと誤用に注意を向けています。
プロジェクトページはhttps://wrt2000.github.io/badvideo2025/にあります。

要約(オリジナル)

Text-to-video (T2V) generative models have rapidly advanced and found widespread applications across fields like entertainment, education, and marketing. However, the adversarial vulnerabilities of these models remain rarely explored. We observe that in T2V generation tasks, the generated videos often contain substantial redundant information not explicitly specified in the text prompts, such as environmental elements, secondary objects, and additional details, providing opportunities for malicious attackers to embed hidden harmful content. Exploiting this inherent redundancy, we introduce BadVideo, the first backdoor attack framework tailored for T2V generation. Our attack focuses on designing target adversarial outputs through two key strategies: (1) Spatio-Temporal Composition, which combines different spatiotemporal features to encode malicious information; (2) Dynamic Element Transformation, which introduces transformations in redundant elements over time to convey malicious information. Based on these strategies, the attacker’s malicious target seamlessly integrates with the user’s textual instructions, providing high stealthiness. Moreover, by exploiting the temporal dimension of videos, our attack successfully evades traditional content moderation systems that primarily analyze spatial information within individual frames. Extensive experiments demonstrate that BadVideo achieves high attack success rates while preserving original semantics and maintaining excellent performance on clean inputs. Overall, our work reveals the adversarial vulnerability of T2V models, calling attention to potential risks and misuse. Our project page is at https://wrt2000.github.io/BadVideo2025/.

arxiv情報

著者 Ruotong Wang,Mingli Zhu,Jiarong Ou,Rui Chen,Xin Tao,Pengfei Wan,Baoyuan Wu
発行日 2025-04-23 17:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク