Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%

要約

VQGAN に代表される画像量子化の領域では、このプロセスにより、事前定義されたサイズのコードブックから抽出された個別のトークンに画像がエンコードされます。
最近の進歩、特に LLAMA 3 では、コードブックを拡大することでモデルのパフォーマンスが大幅に向上することが明らかになりました。
しかし、VQGAN と、VQGAN-FC (Factorized Codes) や VQGAN-EMA などのその派生製品は、コードブックのサイズの拡大とコードブックの使用率の向上に関する課題に引き続き取り組んでいます。
たとえば、VQGAN-FC は最大サイズ 16,384 のコードブックの学習に制限されており、ImageNet では通常 12% 未満の低い使用率を維持します。
この研究では、コードブック サイズを 100,000 まで拡張し、99% を超える使用率を達成する、VQGAN-LC (Large Codebook) と呼ばれる新しい画像量子化モデルを提案します。
各コードブック エントリを最適化する以前の方法とは異なり、私たちのアプローチは、事前トレーニングされたビジョン エンコーダーによって抽出された 100,000 個の特徴で初期化されたコードブックから始まります。
次に、最適化では、コードブック全体を VQGAN-LC のエンコーダーの特徴分布に合わせるプロジェクターのトレーニングに焦点を当てます。
画像再構成、画像分類、GPT を使用した自己回帰画像生成、拡散ベースおよびフローベースの生成モデルによる画像作成など、さまざまなタスクにわたって、モデルが同等のモデルより優れたパフォーマンスを発揮することを実証します。
コードとモデルは https://github.com/zh460045050/VQGAN-LC で入手できます。

要約(オリジナル)

In the realm of image quantization exemplified by VQGAN, the process encodes images into discrete tokens drawn from a codebook with a predefined size. Recent advancements, particularly with LLAMA 3, reveal that enlarging the codebook significantly enhances model performance. However, VQGAN and its derivatives, such as VQGAN-FC (Factorized Codes) and VQGAN-EMA, continue to grapple with challenges related to expanding the codebook size and enhancing codebook utilization. For instance, VQGAN-FC is restricted to learning a codebook with a maximum size of 16,384, maintaining a typically low utilization rate of less than 12% on ImageNet. In this work, we propose a novel image quantization model named VQGAN-LC (Large Codebook), which extends the codebook size to 100,000, achieving an utilization rate exceeding 99%. Unlike previous methods that optimize each codebook entry, our approach begins with a codebook initialized with 100,000 features extracted by a pre-trained vision encoder. Optimization then focuses on training a projector that aligns the entire codebook with the feature distributions of the encoder in VQGAN-LC. We demonstrate the superior performance of our model over its counterparts across a variety of tasks, including image reconstruction, image classification, auto-regressive image generation using GPT, and image creation with diffusion- and flow-based generative models. Code and models are available at https://github.com/zh460045050/VQGAN-LC.

arxiv情報

著者 Lei Zhu,Fangyun Wei,Yanye Lu,Dong Chen
発行日 2024-06-17 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク