要約
現実世界のビデオは一連のイベントで構成されます。
このようなシーケンスを正確な時間制御で生成することは、単一段落のテキストを入力として利用する既存のビデオ ジェネレーターでは実現できません。
単一のプロンプトを使用して記述された複数のイベントを生成するタスクを実行する場合、そのようなメソッドは多くの場合、一部のイベントを無視したり、イベントを正しい順序で配置できなかったりします。
この制限に対処するために、時間制御を備えたマルチイベント ビデオ ジェネレーターである MinT を紹介します。
私たちの重要な洞察は、各イベントを生成されたビデオ内の特定の期間にバインドすることです。これにより、モデルは一度に 1 つのイベントに焦点を当てることができます。
イベント キャプションとビデオ トークンの間の時間を意識した対話を可能にするために、ReRoPE と呼ばれる時間ベースの位置エンコード方式を設計しました。
このエンコーディングは、クロスアテンション操作のガイドに役立ちます。
時間的に接地されたデータに基づいて事前にトレーニングされたビデオ拡散トランスフォーマーを微調整することにより、私たちのアプローチは、スムーズに接続されたイベントを含む一貫したビデオを生成します。
私たちのモデルは、文献で初めて、生成されたビデオ内のイベントのタイミングの制御を提供します。
広範な実験により、MinT が既存のオープンソース モデルを大幅に上回るパフォーマンスを示すことが実証されました。
要約(オリジナル)
Real-world videos consist of sequences of events. Generating such sequences with precise temporal control is infeasible with existing video generators that rely on a single paragraph of text as input. When tasked with generating multiple events described using a single prompt, such methods often ignore some of the events or fail to arrange them in the correct order. To address this limitation, we present MinT, a multi-event video generator with temporal control. Our key insight is to bind each event to a specific period in the generated video, which allows the model to focus on one event at a time. To enable time-aware interactions between event captions and video tokens, we design a time-based positional encoding method, dubbed ReRoPE. This encoding helps to guide the cross-attention operation. By fine-tuning a pre-trained video diffusion transformer on temporally grounded data, our approach produces coherent videos with smoothly connected events. For the first time in the literature, our model offers control over the timing of events in generated videos. Extensive experiments demonstrate that MinT outperforms existing open-source models by a large margin.
arxiv情報
著者 | Ziyi Wu,Aliaksandr Siarohin,Willi Menapace,Ivan Skorokhodov,Yuwei Fang,Varnith Chordia,Igor Gilitschenski,Sergey Tulyakov |
発行日 | 2024-12-06 18:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google