DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

要約

このホワイトペーパーでは、新しい次のデテール予測戦略を介して画像をモデル化する粗からファインの1Dオートレーリング(AR)画像生成方法であるDefaryFlowを紹介します。
徐々に劣化した画像で監督された解像度に対応するトークンシーケンスを学習することにより、詳細なフローを使用すると、生成プロセスがグローバル構造から開始し、詳細を徐々に改良することができます。
この粗からファインまでの1Dトークンシーケンスは、自己回帰推論メカニズムとよく整合しており、ARモデルが複雑な視覚コンテンツを生成するためのより自然で効率的な方法を提供します。
コンパクト1D ARモデルは、以前のアプローチ、つまりvar/vqganよりも大幅に少ないトークンで高品質の画像合成を実現します。
さらに、教師の監督に固有の蓄積サンプリングエラーを減らしながら、生成速度を約8倍に加速する自己修正を伴う並列推論メカニズムを提案します。
ImagENet 256×256ベンチマークでは、128トークン、アウトパフォームVAR(3.3 fid)、Flexvar(3.05 fid)を備えた2.96 GFIDを達成します。
さらに、トークンカウントと並列推論メカニズムが大幅に減少したため、私たちの方法は、VARおよびFlexVarに比べて推論速度が2倍近く実行されます。
広範な実験結果は、既存の最先端の方法と比較して、DefaryFlowの優れた生成品質と効率性を示しています。

要約(オリジナル)

This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256×256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow’s superior generation quality and efficiency compared to existing state-of-the-art methods.

arxiv情報

著者 Yiheng Liu,Liao Qu,Huichao Zhang,Xu Wang,Yi Jiang,Yiming Gao,Hu Ye,Xian Li,Shuai Wang,Daniel K. Du,Shu Cheng,Zehuan Yuan,Xinglong Wu
発行日 2025-05-27 17:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク