要約
我々は、多種多様な調整信号から、高品質のビデオと一致するオーディオを合成できる言語モデルである VideoPoet を紹介します。
VideoPoet は、画像、ビデオ、テキスト、オーディオなどのマルチモーダル入力を処理するデコーダー専用のトランスフォーマー アーキテクチャを採用しています。
トレーニング プロトコルは大規模言語モデル (LLM) のプロトコルに従い、事前トレーニングとタスク固有の適応という 2 つの段階で構成されます。
VideoPoet は、事前トレーニング中に、自己回帰 Transformer フレームワーク内にマルチモーダルな生成目標の混合を組み込みます。
事前トレーニングされた LLM は、さまざまなビデオ生成タスクに適応できる基盤として機能します。
ゼロショットビデオ生成におけるモデルの最先端の機能を実証する実験結果を紹介し、特に高忠実度のモーションを生成する VideoPoet の機能を強調します。
プロジェクトページ: http://sites.research.google/videopoet/
要約(オリジナル)
We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs — including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model’s state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet’s ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
arxiv情報
著者 | Dan Kondratyuk,Lijun Yu,Xiuye Gu,José Lezama,Jonathan Huang,Grant Schindler,Rachel Hornung,Vighnesh Birodkar,Jimmy Yan,Ming-Chang Chiu,Krishna Somandepalli,Hassan Akbari,Yair Alon,Yong Cheng,Josh Dillon,Agrim Gupta,Meera Hahn,Anja Hauth,David Hendon,Alonso Martinez,David Minnen,Mikhail Sirotenko,Kihyuk Sohn,Xuan Yang,Hartwig Adam,Ming-Hsuan Yang,Irfan Essa,Huisheng Wang,David A. Ross,Bryan Seybold,Lu Jiang |
発行日 | 2024-06-04 17:25:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google