InteractiveVideo: User-Centric Controllable Video Generation with Synergistic Multimodal Instructions

要約

動画生成のためのユーザ中心のフレームワークである$textit{InteractiveVideo}$を紹介する。ユーザから提供された画像やテキストに基づいて動作する従来の生成アプローチとは異なり、本フレームワークは動的なインタラクションのために設計されており、ユーザは生成プロセス全体において、様々な直感的なメカニズム(例えば、テキストや画像のプロンプト、ペイント、ドラッグアンドドロップなど)を通じて生成モデルに指示を与えることができる。我々は、ユーザのマルチモーダルな指示を生成モデルにシームレスに統合するように設計された、相乗的マルチモーダル指示メカニズムを提案する。このアプローチは、正確で効果的なユーザー指示によって、生成結果の反復的できめ細かい改良を可能にする。textit{InteractiveVideo}$を使うと、ユーザはビデオの主要な部分を細かく調整する柔軟性が与えられる。ユーザは、要求が完全に満たされるまで、参照画像をペイントし、セマンティクスを編集し、ビデオのモーションを調整することができる。コード、モデル、デモはhttps://github.com/invictus717/InteractiveVideo。

要約(オリジナル)

We introduce $\textit{InteractiveVideo}$, a user-centric framework for video generation. Different from traditional generative approaches that operate based on user-provided images or text, our framework is designed for dynamic interaction, allowing users to instruct the generative model through various intuitive mechanisms during the whole generation process, e.g. text and image prompts, painting, drag-and-drop, etc. We propose a Synergistic Multimodal Instruction mechanism, designed to seamlessly integrate users’ multimodal instructions into generative models, thus facilitating a cooperative and responsive interaction between user inputs and the generative process. This approach enables iterative and fine-grained refinement of the generation result through precise and effective user instructions. With $\textit{InteractiveVideo}$, users are given the flexibility to meticulously tailor key aspects of a video. They can paint the reference image, edit semantics, and adjust video motions until their requirements are fully met. Code, models, and demo are available at https://github.com/invictus717/InteractiveVideo

arxiv情報

著者 Yiyuan Zhang,Yuhao Kang,Zhixin Zhang,Xiaohan Ding,Sanyuan Zhao,Xiangyu Yue
発行日 2024-02-05 14:24:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク