Object-Centric Diffusion for Efficient Video Editing

要約

拡散ベースのビデオ編集は優れた品質に達しており、テキスト編集プロンプトに従って、グローバル スタイル、ローカル構造、および特定のビデオ入力の属性を変換できます。
ただし、このようなソリューションでは通常、拡散反転やクロスフレーム アテンションの形で時間的にコヒーレントなフレームを生成するために大量のメモリと計算コストがかかります。
このペーパーでは、そのような非効率性の分析を実施し、品質を維持しながら大幅なスピードアップを可能にするシンプルかつ効果的な修正を提案します。
さらに、オブジェクト中心拡散を導入して、生成アーティファクトを修正し、おそらく知覚品質にとってより重要である前景編集領域により多くの計算を割り当てることでレイテンシーをさらに削減します。
私たちはこれを 2 つの新しい提案によって実現します。i) オブジェクト中心のサンプリング。顕著な領域または背景領域に費やされる拡散ステップを分離し、前者に大部分を費やします。ii) オブジェクト中心のトークン マージ。フレーム間の注意のコストを削減します。
重要でない背景領域に冗長なトークンを融合します。
どちらの手法も、再トレーニングすることなく特定のビデオ編集モデルにすぐに適用でき、メモリと計算コストを大幅に削減できます。
反転ベースおよび制御信号ベースの編集パイプラインに関する提案を評価し、同等の合成品質でレイテンシが最大 10 倍削減されることを示しています。
プロジェクト ページ: qualcomm-ai-research.github.io/object-centric-diffusion。

要約(オリジナル)

Diffusion-based video editing have reached impressive quality and can transform either the global style, local structure, and attributes of given video inputs, following textual edit prompts. However, such solutions typically incur heavy memory and computational costs to generate temporally-coherent frames, either in the form of diffusion inversion and/or cross-frame attention. In this paper, we conduct an analysis of such inefficiencies, and suggest simple yet effective modifications that allow significant speed-ups whilst maintaining quality. Moreover, we introduce Object-Centric Diffusion, to fix generation artifacts and further reduce latency by allocating more computations towards foreground edited regions, arguably more important for perceptual quality. We achieve this by two novel proposals: i) Object-Centric Sampling, decoupling the diffusion steps spent on salient or background regions and spending most on the former, and ii) Object-Centric Token Merging, which reduces cost of cross-frame attention by fusing redundant tokens in unimportant background regions. Both techniques are readily applicable to a given video editing model without retraining, and can drastically reduce its memory and computational cost. We evaluate our proposals on inversion-based and control-signal-based editing pipelines, and show a latency reduction up to 10x for a comparable synthesis quality. Project page: qualcomm-ai-research.github.io/object-centric-diffusion.

arxiv情報

著者 Kumara Kahatapitiya,Adil Karjauv,Davide Abati,Fatih Porikli,Yuki M. Asano,Amirhossein Habibian
発行日 2024-08-30 13:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク