要約
近年、大規模言語モデル (LLM) 内で画像の理解と生成を統合することへの関心が大幅に高まっています。
この関心の高まりを受けて、この統合をビデオにも拡張することを検討するようになりました。
中心的な課題は、ビデオの空間特性と時間ダイナミクスの両方をキャプチャして LLM の表現を取得する多用途のビデオ トークナイザーを開発することにあり、その表現はさらにリアルなビデオ クリップにデコードされてビデオ生成が可能になります。
この研究では、拡散プロセスを利用して自己教師付きビデオ表現学習を行う、拡散を利用したビデオ トークナイザーである Divot を紹介します。
ビデオ拡散モデルがビデオ トークナイザーの特徴を条件として採用することでビデオ クリップのノイズを効果的に除去できれば、トークナイザーは堅牢な空間的および時間的情報をキャプチャーすることに成功したと仮定します。
さらに、ビデオ拡散モデルは本質的にトークナイザーとして機能し、ビデオをその表現からデコードします。
Divot トークナイザーを基盤として、連続値の Divot 特徴の分布をガウス混合モデルでモデル化することで、ビデオからテキストへの自動回帰とテキストからビデオへの生成を通じて Divot-Vicuna を提示します。
実験結果は、当社の拡散ベースのビデオ トークナイザーが、事前トレーニングされた LLM と統合された場合、さまざまなビデオ理解および生成ベンチマーク全体で競争力のあるパフォーマンスを達成することを示しています。
命令調整された Divot-Vicuna はビデオ ストーリーテリングにも優れており、インターリーブされたナラティブと対応するビデオを生成します。
要約(オリジナル)
In recent years, there has been a significant surge of interest in unifying image comprehension and generation within Large Language Models (LLMs). This growing interest has prompted us to explore extending this unification to videos. The core challenge lies in developing a versatile video tokenizer that captures both the spatial characteristics and temporal dynamics of videos to obtain representations for LLMs, and the representations can be further decoded into realistic video clips to enable video generation. In this work, we introduce Divot, a Diffusion-Powered Video Tokenizer, which leverages the diffusion process for self-supervised video representation learning. We posit that if a video diffusion model can effectively de-noise video clips by taking the features of a video tokenizer as the condition, then the tokenizer has successfully captured robust spatial and temporal information. Additionally, the video diffusion model inherently functions as a de-tokenizer, decoding videos from their representations. Building upon the Divot tokenizer, we present Divot-Vicuna through video-to-text autoregression and text-to-video generation by modeling the distributions of continuous-valued Divot features with a Gaussian Mixture Model. Experimental results demonstrate that our diffusion-based video tokenizer, when integrated with a pre-trained LLM, achieves competitive performance across various video comprehension and generation benchmarks. The instruction tuned Divot-Vicuna also excels in video storytelling, generating interleaved narratives and corresponding videos.
arxiv情報
著者 | Yuying Ge,Yizhuo Li,Yixiao Ge,Ying Shan |
発行日 | 2024-12-05 18:53:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google