Language Model Beats Diffusion — Tokenizer is Key to Visual Generation

要約

大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、画像やビデオの生成では拡散モデルほど優れたパフォーマンスを発揮しません。
ビジュアル生成に LLM を効果的に使用するために、重要なコンポーネントの 1 つは、ピクセル空間入力を LLM 学習に適切な離散トークンにマッピングするビジュアル トークナイザーです。
このペーパーでは、共通のトークン語彙を使用してビデオと画像の両方に対して簡潔で表現力豊かなトークンを生成するように設計されたビデオ トークナイザーである MAGVIT-v2 を紹介します。
この新しいトークナイザーを装備すると、LLM が ImageNet や Kinetics などの標準的な画像およびビデオ生成ベンチマークで拡散モデルよりも優れたパフォーマンスを発揮することがわかります。
さらに、当社のトークナイザーが、さらに 2 つのタスクにおいて、以前のトップパフォーマンスのビデオ トークナイザーを上回っていることを実証します。(1) 人間による評価によると、次世代ビデオ コーデック (VCC) に匹敵するビデオ圧縮、および (2) ビデオ トークナイザーの効果的な表現の学習
行動認識タスク。

要約(オリジナル)

While Large Language Models (LLMs) are the dominant models for generative tasks in language, they do not perform as well as diffusion models on image and video generation. To effectively use LLMs for visual generation, one crucial component is the visual tokenizer that maps pixel-space inputs to discrete tokens appropriate for LLM learning. In this paper, we introduce MAGVIT-v2, a video tokenizer designed to generate concise and expressive tokens for both videos and images using a common token vocabulary. Equipped with this new tokenizer, we show that LLMs outperform diffusion models on standard image and video generation benchmarks including ImageNet and Kinetics. In addition, we demonstrate that our tokenizer surpasses the previously top-performing video tokenizer on two more tasks: (1) video compression comparable to the next-generation video codec (VCC) according to human evaluations, and (2) learning effective representations for action recognition tasks.

arxiv情報

著者 Lijun Yu,José Lezama,Nitesh B. Gundavarapu,Luca Versari,Kihyuk Sohn,David Minnen,Yong Cheng,Vighnesh Birodkar,Agrim Gupta,Xiuye Gu,Alexander G. Hauptmann,Boqing Gong,Ming-Hsuan Yang,Irfan Essa,David A. Ross,Lu Jiang
発行日 2024-03-29 17:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク