要約
現在の拡散ベースのビデオ編集は、主に時間的一貫性と動きの整合を確保するために様々な密な対応関係を利用することで、構造を保存した編集に焦点を当てている。しかし、これらのアプローチは、編集対象が形状変化を伴う場合、しばしば効果がない。形状変化を伴う映像編集に着手するため、本研究では、カスタマイズされた映像の被写体入れ替えを探求し、ソース映像の主要な被写体を、異なるアイデンティティと潜在的に異なる形状を持つターゲット被写体に入れ替えることを目指す。密な対応関係に依存する従来の手法とは対照的に、我々は、被写体の動きの軌跡を整列させ、その形状を変更するために必要な意味的な点の数はわずかであるという観察から着想を得て、意味的な点の対応関係を利用するVideoSwapフレームワークを導入する。また、様々な意味的点対応に対応するために、様々なユーザー点インタラクション( \eg, remove points, drag points)を導入する。広範な実験により、実世界の様々なビデオにおいて、最先端のビデオ被写体交換の結果を実証する。
要約(オリジナル)
Current diffusion-based video editing primarily focuses on structure-preserved editing by utilizing various dense correspondences to ensure temporal consistency and motion alignment. However, these approaches are often ineffective when the target edit involves a shape change. To embark on video editing with shape change, we explore customized video subject swapping in this work, where we aim to replace the main subject in a source video with a target subject having a distinct identity and potentially different shape. In contrast to previous methods that rely on dense correspondences, we introduce the VideoSwap framework that exploits semantic point correspondences, inspired by our observation that only a small number of semantic points are necessary to align the subject’s motion trajectory and modify its shape. We also introduce various user-point interactions (\eg, removing points and dragging points) to address various semantic point correspondence. Extensive experiments demonstrate state-of-the-art video subject swapping results across a variety of real-world videos.
arxiv情報
著者 | Yuchao Gu,Yipin Zhou,Bichen Wu,Licheng Yu,Jia-Wei Liu,Rui Zhao,Jay Zhangjie Wu,David Junhao Zhang,Mike Zheng Shou,Kevin Tang |
発行日 | 2023-12-04 17:58:06+00:00 |
arxivサイト | arxiv_id(pdf) |