要約
拡散ベースの生成モデルは、最近、驚くべき画像およびビデオ編集機能を示しています。
ただし、ローカルビデオ編集、特にメガネなどの小さな属性の削除は依然として課題です。
既存の方法では、ビデオを過度に変更したり、非現実的なアーティファクトを生成したり、要求された編集をビデオ全体で一貫して実行できなかったりします。
この研究では、ビデオ内の一貫したローカル属性の削除のケーススタディとして、ビデオ内の一貫したアイデンティティを保持したメガネの削除に焦点を当てています。
ペアになったデータが不足しているため、弱く教師ありのアプローチを採用し、調整済みの事前トレーニングされた拡散モデルを使用して不完全な合成データを生成します。
データの不完全性にもかかわらず、生成されたデータから学習し、事前トレーニングされた拡散モデルの事前学習を活用することにより、モデルは元のビデオ コンテンツを維持しながら目的の編集を一貫して実行できることを示します。
さらに、私たちの方法を顔のステッカーの除去にうまく適用することで、他のローカルビデオ編集タスクへのこの方法の一般化能力を実証します。
私たちのアプローチは既存の方法に比べて大幅な改善を示しており、ローカルビデオ編集タスクに合成データと強力なビデオ事前情報を活用できる可能性を示しています。
要約(オリジナル)
Diffusion-based generative models have recently shown remarkable image and video editing capabilities. However, local video editing, particularly removal of small attributes like glasses, remains a challenge. Existing methods either alter the videos excessively, generate unrealistic artifacts, or fail to perform the requested edit consistently throughout the video. In this work, we focus on consistent and identity-preserving removal of glasses in videos, using it as a case study for consistent local attribute removal in videos. Due to the lack of paired data, we adopt a weakly supervised approach and generate synthetic imperfect data, using an adjusted pretrained diffusion model. We show that despite data imperfection, by learning from our generated data and leveraging the prior of pretrained diffusion models, our model is able to perform the desired edit consistently while preserving the original video content. Furthermore, we exemplify the generalization ability of our method to other local video editing tasks by applying it successfully to facial sticker-removal. Our approach demonstrates significant improvement over existing methods, showcasing the potential of leveraging synthetic data and strong video priors for local video editing tasks.
arxiv情報
著者 | Rotem Shalev-Arkushin,Aharon Azulay,Tavi Halperin,Eitan Richardson,Amit H. Bermano,Ohad Fried |
発行日 | 2024-06-20 17:14:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google