HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

要約

画像生成品質において拡散モデルに匹敵する、1024×1024 画像を直接生成できる自己回帰 (AR) ビジュアル生成モデルであるハイブリッド自己回帰トランスフォーマー (HART) を紹介します。
既存の AR モデルは、離散トークナイザーの画像再構成の品質が低いことと、1024 ピクセル画像の生成に関連する法外なトレーニング コストによる制限に直面しています。
これらの課題に対処するために、オートエンコーダーからの連続潜在を 2 つのコンポーネントに分解するハイブリッド トークナイザーを紹介します。全体像を表す離散トークンと、離散トークンでは表現できない残差コンポーネントを表す連続トークンです。
離散コンポーネントはスケーラブルな解像度の離散 AR モデルによってモデル化され、連続コンポーネントはわずか 3,700 万のパラメーターを備えた軽量の残留拡散モジュールで学習されます。
離散専用 VAR トークナイザーと比較して、当社のハイブリッド アプローチにより、MJHQ-30K での再構成 FID が 2.11 から 0.30 に向上し、生成 FID が 7.85 から 5.38 に 31% 向上しました。
また、HART は FID スコアと CLIP スコアの両方で最先端の拡散モデルを上回り、スループットが 4.5 ~ 7.7 倍高く、MAC が 6.9 ~ 13.4 倍低くなります。
私たちのコードは https://github.com/mit-han-lab/hart でオープンソース化されています。

要約(オリジナル)

We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating 1024×1024 images, rivaling diffusion models in image generation quality. Existing AR models face limitations due to the poor image reconstruction quality of their discrete tokenizers and the prohibitive training costs associated with generating 1024px images. To address these challenges, we present the hybrid tokenizer, which decomposes the continuous latents from the autoencoder into two components: discrete tokens representing the big picture and continuous tokens representing the residual components that cannot be represented by the discrete tokens. The discrete component is modeled by a scalable-resolution discrete AR model, while the continuous component is learned with a lightweight residual diffusion module with only 37M parameters. Compared with the discrete-only VAR tokenizer, our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K, leading to a 31% generation FID improvement from 7.85 to 5.38. HART also outperforms state-of-the-art diffusion models in both FID and CLIP score, with 4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced at https://github.com/mit-han-lab/hart.

arxiv情報

著者 Haotian Tang,Yecheng Wu,Shang Yang,Enze Xie,Junsong Chen,Junyu Chen,Zhuoyang Zhang,Han Cai,Yao Lu,Song Han
発行日 2024-10-14 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク