要約
2 つの画像フレーム間で妥当かつスムーズなトランジションを生成することにより、ビデオ間処理はビデオ編集や長いビデオ合成に不可欠なツールです。
従来の作品には、複雑で大きな動きを生成する機能がありませんでした。
最近のビデオ生成技術は、高品質の結果を作成するのに強力ですが、多くの場合、中間フレームの詳細を細かく制御できず、創造的な思考と一致しない結果が生じる可能性があります。
MotionBridge は、軌跡ストローク、キーフレーム、マスク、ガイド ピクセル、テキストなどの柔軟な制御を可能にする統合ビデオ中間フレームワークです。
ただし、このようなマルチモーダルな制御を統一フレームワークで学習するのは困難な作業です。
そこで、制御信号を忠実に抽出し、デュアルブランチ エンベッダーを通じて特徴をエンコードして曖昧さを解決する 2 つのジェネレーターを設計しました。
さらに、さまざまな制御をスムーズに習得するためのカリキュラムトレーニング戦略を紹介します。
広範な定性的および定量的実験により、このようなマルチモーダルなコントロールにより、より動的でカスタマイズ可能で、状況に応じて正確な視覚的な物語が可能になることが実証されました。
要約(オリジナル)
By generating plausible and smooth transitions between two image frames, video inbetweening is an essential tool for video editing and long video synthesis. Traditional works lack the capability to generate complex large motions. While recent video generation techniques are powerful in creating high-quality results, they often lack fine control over the details of intermediate frames, which can lead to results that do not align with the creative mind. We introduce MotionBridge, a unified video inbetweening framework that allows flexible controls, including trajectory strokes, keyframes, masks, guide pixels, and text. However, learning such multi-modal controls in a unified framework is a challenging task. We thus design two generators to extract the control signal faithfully and encode feature through dual-branch embedders to resolve ambiguities. We further introduce a curriculum training strategy to smoothly learn various controls. Extensive qualitative and quantitative experiments have demonstrated that such multi-modal controls enable a more dynamic, customizable, and contextually accurate visual narrative.
arxiv情報
著者 | Maham Tanveer,Yang Zhou,Simon Niklaus,Ali Mahdavi Amiri,Hao Zhang,Krishna Kumar Singh,Nanxuan Zhao |
発行日 | 2024-12-17 18:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google