要約
この研究では、ユーザー説明の分レベルのビデオ ブログ (つまり、vlog) を生成するための汎用 AI システムである Vlogger を紹介します。
数秒の短いビデオとは異なり、vlog には多様なシーンを含む複雑なストーリーが含まれることが多く、これは既存のビデオ生成アプローチのほとんどにとって困難です。
このボトルネックを打破するために、当社の Vlogger はラージ言語モデル (LLM) をディレクターとして賢く利用し、vlog の長いビデオ生成タスクを 4 つの主要な段階に分解します。そこでは、vlog プロフェッショナルの重要な役割を果たすためのさまざまな基礎モデルを呼び出します。
) 脚本、(2) 俳優、(3) ShowMaker、および (4) 声優。
このような人間を模倣したデザインにより、当社の Vlogger は、トップダウンの企画とボトムアップの撮影の説明可能な連携を通じて Vlog を生成できます。
さらに、各撮影シーンのビデオ スニペットを生成するための Vlogger のビデオグラファーとして機能する、新しいビデオ拡散モデル ShowMaker を導入します。
スクリプトとアクターをテキストおよび視覚的なプロンプトとして注意深く組み込むことで、スニペット内の時空間の一貫性を効果的に強化できます。
さらに、ShowMaker 用の簡潔な混合トレーニング パラダイムを設計し、T2V の生成と予測の両方の能力を強化します。
最後に、広範な実験により、私たちの方法がゼロショット T2V 生成および予測タスクで最先端のパフォーマンスを達成できることが示されています。
さらに重要なことは、Vlogger は、脚本と俳優のビデオの一貫性を損なうことなく、オープンワールドの説明から 5 分を超える vlog を生成できることです。
コードとモデルはすべて https://github.com/zhuangshaobin/Vlogger で入手できます。
要約(オリジナル)
In this work, we present Vlogger, a generic AI system for generating a minute-level video blog (i.e., vlog) of user descriptions. Different from short videos with a few seconds, vlog often contains a complex storyline with diversified scenes, which is challenging for most existing video generation approaches. To break through this bottleneck, our Vlogger smartly leverages Large Language Model (LLM) as Director and decomposes a long video generation task of vlog into four key stages, where we invoke various foundation models to play the critical roles of vlog professionals, including (1) Script, (2) Actor, (3) ShowMaker, and (4) Voicer. With such a design of mimicking human beings, our Vlogger can generate vlogs through explainable cooperation of top-down planning and bottom-up shooting. Moreover, we introduce a novel video diffusion model, ShowMaker, which serves as a videographer in our Vlogger for generating the video snippet of each shooting scene. By incorporating Script and Actor attentively as textual and visual prompts, it can effectively enhance spatial-temporal coherence in the snippet. Besides, we design a concise mixed training paradigm for ShowMaker, boosting its capacity for both T2V generation and prediction. Finally, the extensive experiments show that our method achieves state-of-the-art performance on zero-shot T2V generation and prediction tasks. More importantly, Vlogger can generate over 5-minute vlogs from open-world descriptions, without loss of video coherence on script and actor. The code and model is all available at https://github.com/zhuangshaobin/Vlogger.
arxiv情報
著者 | Shaobin Zhuang,Kunchang Li,Xinyuan Chen,Yaohui Wang,Ziwei Liu,Yu Qiao,Yali Wang |
発行日 | 2024-01-17 18:55:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google