Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts

要約

テキスト駆動型の画像や映像の拡散モデルは、リアルで多様なコンテンツの生成において、かつてない成功を収めている。近年、拡散に基づく生成モデルにおいて、既存の画像や映像の編集やバリエーションが大きな注目を集めている。しかし、これまでの研究は、テキストによる編集や、単一の視覚的手がかりを用いた粗いパーソナライゼーションに限られており、きめ細かな制御が必要な何とも言えないコンテンツには不向きである。そこで我々は、テキストとビジュアルを手がかりに、個人が主人公になることを目的とした動画編集フレームワーク「Make-A-Protagonist」を提案します。具体的には、複数の専門家を活用してソースビデオを解析し、視覚的およびテキスト的な手がかりをターゲットとし、マスクガイド付きノイズ除去サンプリングを採用した視覚-テキストベースのビデオ生成モデルを提案し、望ましい出力を生成することを目的としています。広範な結果、Make-A-Protagonistの多用途かつ顕著な編集能力が実証されました。

要約(オリジナル)

The text-driven image and video diffusion models have achieved unprecedented success in generating realistic and diverse content. Recently, the editing and variation of existing images and videos in diffusion-based generative models have garnered significant attention. However, previous works are limited to editing content with text or providing coarse personalization using a single visual clue, rendering them unsuitable for indescribable content that requires fine-grained and detailed control. In this regard, we propose a generic video editing framework called Make-A-Protagonist, which utilizes textual and visual clues to edit videos with the goal of empowering individuals to become the protagonists. Specifically, we leverage multiple experts to parse source video, target visual and textual clues, and propose a visual-textual-based video generation model that employs mask-guided denoising sampling to generate the desired output. Extensive results demonstrate the versatile and remarkable editing capabilities of Make-A-Protagonist.

arxiv情報

著者 Yuyang Zhao,Enze Xie,Lanqing Hong,Zhenguo Li,Gim Hee Lee
発行日 2023-05-15 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク