Shape-aware Text-driven Layered Video Editing

要約

ビデオ編集アプリケーションでは、時間的な一貫性が不可欠です。
ビデオの階層化された表現に関する既存の作業により、編集を各フレームに一貫して伝達できます。
ただし、これらの方法では、テクスチャ アトラスに固定 UV マッピング フィールドを使用するという制限があるため、オブジェクトの形状の変更ではなく、オブジェクトの外観のみを編集できます。
この課題に取り組むために、形状を認識したテキスト駆動型のビデオ編集方法を紹介します。
ビデオ編集で形状の変化を処理するには、まず、入力キーフレームと編集済みキーフレームの間の変形フィールドをすべてのフレームに伝播します。
次に、形状の歪みを改善し、見えない領域を完成させるためのガイダンスとして、トレーニング済みのテキスト調整拡散モデルを活用します。
実験結果は、私たちの方法が形状を意識した一貫したビデオ編集を実現し、最先端技術と比較して有利であることを示しています。

要約(オリジナル)

Temporal consistency is essential for video editing applications. Existing work on layered representation of videos allows propagating edits consistently to each frame. These methods, however, can only edit object appearance rather than object shape changes due to the limitation of using a fixed UV mapping field for texture atlas. We present a shape-aware, text-driven video editing method to tackle this challenge. To handle shape changes in video editing, we first propagate the deformation field between the input and edited keyframe to all frames. We then leverage a pre-trained text-conditioned diffusion model as guidance for refining shape distortion and completing unseen regions. The experimental results demonstrate that our method can achieve shape-aware consistent video editing and compare favorably with the state-of-the-art.

arxiv情報

著者 Yao-Chih Lee,Ji-Ze Genevieve Jang,Yi-Ting Chen,Elizabeth Qiu,Jia-Bin Huang
発行日 2023-01-30 18:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク