VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing

要約

拡散モデルの最近の進歩により、ビデオ生成と編集機能が大幅に改善されました。
ただし、クラスレベル、インスタンスレベル、およびパートレベルの変更を網羅するマルチグレインビデオ編集は、依然として手ごわい課題です。
マルチグレイン編集の主な困難には、テキスト間コントロールのセマンティックな不整合と、拡散モデル内の特徴結合が含まれます。
これらの困難に対処するために、ビデオコンテンツを細かく制御するために時空(クロスおよびセルフ)の注意メカニズムを調節するゼロショットアプローチであるVidegRainを提示します。
各ローカルプロンプトの対応する空間的延長領域への注意を拡大しながら、相互作用における無関係な領域との相互作用を最小限に抑えることにより、テキスト間制御を強化します。
さらに、地域内の意識を高め、自己副次的な地域間干渉を減らすことにより、特徴分離を改善します。
広範な実験は、私たちの方法が実際のシナリオで最新のパフォーマンスを達成することを示しています。
コード、データ、およびデモは、https://knightyxp.github.io/videograin_project_page/で入手できます。

要約(オリジナル)

Recent advancements in diffusion models have significantly improved video generation and editing capabilities. However, multi-grained video editing, which encompasses class-level, instance-level, and part-level modifications, remains a formidable challenge. The major difficulties in multi-grained editing include semantic misalignment of text-to-region control and feature coupling within the diffusion model. To address these difficulties, we present VideoGrain, a zero-shot approach that modulates space-time (cross- and self-) attention mechanisms to achieve fine-grained control over video content. We enhance text-to-region control by amplifying each local prompt’s attention to its corresponding spatial-disentangled region while minimizing interactions with irrelevant areas in cross-attention. Additionally, we improve feature separation by increasing intra-region awareness and reducing inter-region interference in self-attention. Extensive experiments demonstrate our method achieves state-of-the-art performance in real-world scenarios. Our code, data, and demos are available at https://knightyxp.github.io/VideoGrain_project_page/

arxiv情報

著者 Xiangpeng Yang,Linchao Zhu,Hehe Fan,Yi Yang
発行日 2025-02-24 15:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク