Diffusion Autoencoders are Scalable Image Tokenizers

要約

画像をコンパクトな視覚表現にトークン化することは、効率的で高品質の画像生成モデルを学習するための重要なステップです。
画像生成モデルのコンパクトな視覚表現を学習する単純な拡散トークネザー(DITO)を提示します。
私たちの重要な洞察は、単一の学習目標である拡散L2損失を、スケーラブルな画像トークンザーのトレーニングに使用できることです。
拡散はすでに画像生成に広く使用されているため、私たちの洞察は、トークンザーなどのトレーニングを大幅に簡素化します。
対照的に、現在の最先端のトークンザーは、ヒューリスティックと損失の経験的に見つかった組み合わせに依存しているため、異なる損失と前提条件の監督モデルのバランスをとっていない複雑なトレーニングレシピが必要です。
私たちは、競争力のある画像表現を学ぶためにDITOをスケーリングできるようにする理論的な基礎とともに、設計上の決定を示します。
我々の結果は、DITOが、監視されている現在の最先端の画像トークナーに代わる、よりシンプルでスケーラブルで自己監視された代替品であることを示しています。
DITOは、最先端の画像再構成および下流の画像生成タスクよりも競争力のあるまたは優れた品質を達成します。

要約(オリジナル)

Tokenizing images into compact visual representations is a key step in learning efficient and high-quality image generative models. We present a simple diffusion tokenizer (DiTo) that learns compact visual representations for image generation models. Our key insight is that a single learning objective, diffusion L2 loss, can be used for training scalable image tokenizers. Since diffusion is already widely used for image generation, our insight greatly simplifies training such tokenizers. In contrast, current state-of-the-art tokenizers rely on an empirically found combination of heuristics and losses, thus requiring a complex training recipe that relies on non-trivially balancing different losses and pretrained supervised models. We show design decisions, along with theoretical grounding, that enable us to scale DiTo for learning competitive image representations. Our results show that DiTo is a simpler, scalable, and self-supervised alternative to the current state-of-the-art image tokenizer which is supervised. DiTo achieves competitive or better quality than state-of-the-art in image reconstruction and downstream image generation tasks.

arxiv情報

著者 Yinbo Chen,Rohit Girdhar,Xiaolong Wang,Sai Saketh Rambhatla,Ishan Misra
発行日 2025-01-30 18:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク