要約
通常、最近の画像生成スキームは、凍結画像トークネイザーに依存して、事前に構築された潜在スペースで画像分布をキャプチャします。
トークナイザーのパフォーマンスは成功した世代に不可欠な役割を果たしますが、現在の評価メトリック(例えばRFID)はトークン剤を正確に評価し、そのパフォーマンスを生成品質(例:GFID)と相関させることができません。
この論文では、個別の潜在空間における再構築と生成の品質の矛盾の理由を包括的に分析し、そこから潜在的な空間構造を促進するための新しいプラグアンドプレイトークン剤トレーニングスキームを提案します。
具体的には、サンプリングノイズ、つまり生成プロセスからサンプリングされた予期しないトークンをシミュレートするために、潜在的な摂動アプローチが提案されています。
潜在的な摂動により、(1)新規トークネイザー評価メトリック、つまりPFIDをさらに提案します。これにより、トークン剤のパフォーマンスが生成品質と成功し、(2)プラグアンドプレイのトークン剤トレーニングスキームが成功し、トークン剤の堅牢性を大幅に向上させ、生成品質と収束速度を高めます。
広範なベンチマークは、2つの自己回帰生成モデルを備えた11の高度な離散画像トークナザーで行われ、アプローチを検証します。
提案された潜在的な摂動で訓練されたトークン剤は、分類器のないガイダンス(CFG)を備えた顕著な1.60 GFIDと、$ \ SIM $ 400Mジェネレーターを備えたCFGを使用して3.45 GFIDを実現します。
コード:https://github.com/lxa9867/imagefolder。
要約(オリジナル)
Recent image generation schemes typically capture image distribution in a pre-constructed latent space relying on a frozen image tokenizer. Though the performance of tokenizer plays an essential role to the successful generation, its current evaluation metrics (e.g. rFID) fail to precisely assess the tokenizer and correlate its performance to the generation quality (e.g. gFID). In this paper, we comprehensively analyze the reason for the discrepancy of reconstruction and generation qualities in a discrete latent space, and, from which, we propose a novel plug-and-play tokenizer training scheme to facilitate latent space construction. Specifically, a latent perturbation approach is proposed to simulate sampling noises, i.e., the unexpected tokens sampled, from the generative process. With the latent perturbation, we further propose (1) a novel tokenizer evaluation metric, i.e., pFID, which successfully correlates the tokenizer performance to generation quality and (2) a plug-and-play tokenizer training scheme, which significantly enhances the robustness of tokenizer thus boosting the generation quality and convergence speed. Extensive benchmarking are conducted with 11 advanced discrete image tokenizers with 2 autoregressive generation models to validate our approach. The tokenizer trained with our proposed latent perturbation achieve a notable 1.60 gFID with classifier-free guidance (CFG) and 3.45 gFID without CFG with a $\sim$400M generator. Code: https://github.com/lxa9867/ImageFolder.
arxiv情報
著者 | Kai Qiu,Xiang Li,Jason Kuen,Hao Chen,Xiaohao Xu,Jiuxiang Gu,Yinyi Luo,Bhiksha Raj,Zhe Lin,Marios Savvides |
発行日 | 2025-03-17 17:54:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google