要約
最近、テキストからビデオへの生成が大幅に進歩しており、最先端のモデルが高品質でリアルなビデオを生成できるようになりました。
ただし、これらのモデルには、ユーザーがビデオをインタラクティブに制御および生成する機能が欠けており、これにより新しい応用分野が開かれる可能性があります。
この目標に向けた最初のステップとして、私たちは、拡散ベースのビデオ生成モデルに出力に対するインタラクティブな時空間制御を与えるという問題に取り組みます。
この目的を達成するために、私たちはセグメンテーション文献の最近の進歩からインスピレーションを得て、新しい時空間マスクされた注意モジュールであるピーカブーを提案します。
このモジュールは、トレーニング不要で推論オーバーヘッドなしで、時空間制御を可能にする既製のビデオ生成モデルに追加されるものです。
また、インタラクティブビデオ生成タスクの評価ベンチマークも提案します。
広範な定性的および定量的評価を通じて、Peekaboo が制御ビデオ生成を可能にし、ベースライン モデルと比較して mIoU で最大 3.8 倍のゲインが得られることを確認しました。
要約(オリジナル)
Recently there has been a lot of progress in text-to-video generation, with state-of-the-art models being capable of generating high quality, realistic videos. However, these models lack the capability for users to interactively control and generate videos, which can potentially unlock new areas of application. As a first step towards this goal, we tackle the problem of endowing diffusion-based video generation models with interactive spatio-temporal control over their output. To this end, we take inspiration from the recent advances in segmentation literature to propose a novel spatio-temporal masked attention module – Peekaboo. This module is a training-free, no-inference-overhead addition to off-the-shelf video generation models which enables spatio-temporal control. We also propose an evaluation benchmark for the interactive video generation task. Through extensive qualitative and quantitative evaluation, we establish that Peekaboo enables control video generation and even obtains a gain of upto 3.8x in mIoU over baseline models.
arxiv情報
著者 | Yash Jain,Anshul Nasery,Vibhav Vineet,Harkirat Behl |
発行日 | 2023-12-12 18:43:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google