要約
この論文では、自然言語の要求に応じて映画のような画像 (3072$\times$1280)、映画スタイル (マルチシーン)、およびマルチモダリティ (サウンド) ムービーを生成する強力なフレームワークである MovieFactory を紹介します。
当社の知る限り初の完全自動ムービー生成モデルである当社のアプローチは、ユーザーが簡単なテキスト入力を使用してスムーズなトランジションを備えた魅力的なムービーを作成できるようにし、中程度の品質の単一シーンに限定された無音ビデオを生成する既存の方法を上回ります。
この独特の機能を容易にするために、ChatGPT を利用して、ユーザーが提供したテキストをムービー生成用の詳細な連続スクリプトに拡張します。
次に、ビジョン生成と音声検索を通じて、視覚的および音響的にスクリプトに命を吹き込みます。
ビデオを生成するために、2 段階のプロセスを通じて、事前トレーニングされたテキストから画像への拡散モデルの機能を拡張します。
まず、空間微調整を使用して、事前トレーニングされた画像モデルと新しいビデオ データセットの間のギャップを埋めます。
続いて、物体の動きを捉えるための時間学習を導入します。
オーディオに関しては、高度な検索モデルを活用して、映画のプロットとビジュアル コンテンツに対応するオーディオ要素を選択して調整します。
広範な実験により、MovieFactory がリアルなビジュアル、多様なシーン、シームレスにフィットするオーディオを備えた映画を生成し、ユーザーに斬新で没入型の体験を提供することが実証されました。
生成されたサンプルは YouTube または Bilibili (1080P) でご覧いただけます。
要約(オリジナル)
In this paper, we present MovieFactory, a powerful framework to generate cinematic-picture (3072$\times$1280), film-style (multi-scene), and multi-modality (sounding) movies on the demand of natural languages. As the first fully automated movie generation model to the best of our knowledge, our approach empowers users to create captivating movies with smooth transitions using simple text inputs, surpassing existing methods that produce soundless videos limited to a single scene of modest quality. To facilitate this distinctive functionality, we leverage ChatGPT to expand user-provided text into detailed sequential scripts for movie generation. Then we bring scripts to life visually and acoustically through vision generation and audio retrieval. To generate videos, we extend the capabilities of a pretrained text-to-image diffusion model through a two-stage process. Firstly, we employ spatial finetuning to bridge the gap between the pretrained image model and the new video dataset. Subsequently, we introduce temporal learning to capture object motion. In terms of audio, we leverage sophisticated retrieval models to select and align audio elements that correspond to the plot and visual content of the movie. Extensive experiments demonstrate that our MovieFactory produces movies with realistic visuals, diverse scenes, and seamlessly fitting audio, offering users a novel and immersive experience. Generated samples can be found in YouTube or Bilibili (1080P).
arxiv情報
著者 | Junchen Zhu,Huan Yang,Huiguo He,Wenjing Wang,Zixi Tuo,Wen-Huang Cheng,Lianli Gao,Jingkuan Song,Jianlong Fu |
発行日 | 2023-06-12 17:31:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google