Training-Free Semantic Video Composition via Pre-trained Diffusion Model

要約

ビデオ合成タスクは、さまざまなビデオからの指定された前景と背景を統合して、調和のとれた合成を行うことを目的としています。
現在のアプローチは、主に前景色と照明を調整したビデオでトレーニングされていますが、ドメインギャップなど、表面的な調整を超えた深い意味上の不一致に対処するのに苦労しています。
したがって、意味論的な事前知識が組み込まれた事前トレーニング済みの拡散モデルを採用し、より広範な意味論的な差異を持つ複合ビデオを処理できる、トレーニング不要のパイプラインを提案します。
具体的には、ビデオ フレームをカスケード方式で処理し、拡散モデルを使用して各フレームを 2 つのプロセスで処理します。
反転プロセスでは、可逆性と変更可能性のバランスをとった生成初期点を取得するために、バランス部分反転を提案します。
次に、生成プロセスで、フレーム間で前景の連続性を強化するためにフレーム間拡張アテンションをさらに提案します。
実験結果は、私たちのパイプラインが出力の視覚的な調和とフレーム間の一貫性を確実に確保し、より広範なセマンティックの不一致を管理する有効性を実証していることを明らかにしています。

要約(オリジナル)

The video composition task aims to integrate specified foregrounds and backgrounds from different videos into a harmonious composite. Current approaches, predominantly trained on videos with adjusted foreground color and lighting, struggle to address deep semantic disparities beyond superficial adjustments, such as domain gaps. Therefore, we propose a training-free pipeline employing a pre-trained diffusion model imbued with semantic prior knowledge, which can process composite videos with broader semantic disparities. Specifically, we process the video frames in a cascading manner and handle each frame in two processes with the diffusion model. In the inversion process, we propose Balanced Partial Inversion to obtain generation initial points that balance reversibility and modifiability. Then, in the generation process, we further propose Inter-Frame Augmented attention to augment foreground continuity across frames. Experimental results reveal that our pipeline successfully ensures the visual harmony and inter-frame coherence of the outputs, demonstrating efficacy in managing broader semantic disparities.

arxiv情報

著者 Jiaqi Guo,Sitong Su,Junchen Zhu,Lianli Gao,Jingkuan Song
発行日 2024-01-17 13:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク