360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model

要約

パノラマビデオは、その臨場感あふれる体験のおかげで、最近、研究と応用の両方でより多くの関心を集めています。
360 度のパノラマ ビデオをキャプチャするにはコストがかかるため、プロンプトによって望ましいパノラマ ビデオを生成することが緊急に必要です。
最近、新たに登場したテキストからビデオへの (T2V) 拡散方法は、標準的なビデオ生成において顕著な効果を示しています。
ただし、パノラマ ビデオと標準ビデオではコンテンツとモーション パターンに大きな違いがあるため、これらの方法では満足のいく 360 度パノラマ ビデオを作成する際に課題が発生します。
この論文では、与えられたプロンプトとモーション条件に基づいて 360 度のパノラマ ビデオを生成するための 360 度ビデオ拡散モデル (360DVD) という名前のパイプラインを提案します。
具体的には、パノラマビデオ生成用に事前トレーニングされた T2V モデルを変換する 360 拡張テクニックを備えた軽量の 360 アダプターを導入します。
さらに、字幕付きパノラマ ビデオ データセットの欠如に対処する、360DVD のトレーニング用のパノラマ ビデオとテキストのペアで構成される WEB360 という名前の新しいパノラマ データセットを提案します。
広範な実験により、パノラマビデオ生成における 360DVD の優位性と有効性が実証されています。
私たちのプロジェクトページは https://akaneqwq.github.io/360DVD/ にあります。

要約(オリジナル)

Panorama video recently attracts more interest in both study and application, courtesy of its immersive experience. Due to the expensive cost of capturing 360-degree panoramic videos, generating desirable panorama videos by prompts is urgently required. Lately, the emerging text-to-video (T2V) diffusion methods demonstrate notable effectiveness in standard video generation. However, due to the significant gap in content and motion patterns between panoramic and standard videos, these methods encounter challenges in yielding satisfactory 360-degree panoramic videos. In this paper, we propose a pipeline named 360-Degree Video Diffusion model (360DVD) for generating 360-degree panoramic videos based on the given prompts and motion conditions. Specifically, we introduce a lightweight 360-Adapter accompanied by 360 Enhancement Techniques to transform pre-trained T2V models for panorama video generation. We further propose a new panorama dataset named WEB360 consisting of panoramic video-text pairs for training 360DVD, addressing the absence of captioned panoramic video datasets. Extensive experiments demonstrate the superiority and effectiveness of 360DVD for panorama video generation. Our project page is at https://akaneqwq.github.io/360DVD/.

arxiv情報

著者 Qian Wang,Weiqi Li,Chong Mou,Xinhua Cheng,Jian Zhang
発行日 2024-05-10 12:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク