SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL

要約

この作業は、複雑なアーキテクチャの変更なしに、バニラの自己回帰視覚生成フレームワークであるSimperearを提示します。
トレーニングと推論の最適化を慎重に調査することにより、次のことを実証します。1)0.5Bパラメーターのみで、モデルは1024×1024の解像度画像を高い忠実度で生成し、困難なテキストからイメージへのベンチマーク、例えばGeneval、および79.66での競争結果を達成できます。
2)監視された微調整(SFT)とグループ相対ポリシーの最適化(GRPO)トレーニングの両方が、世代の審美性と迅速な調整の大幅な改善につながる可能性があります。
3)VLLMのような推論アクセラトン技術で最適化されると、1024×1024の画像を簡単に生成する時間を約14秒に減らすことができます。
これらの調査結果を共有し、コードをオープンソーシングすることにより、自己回帰視覚生成の可能性を明らかにし、この研究分野へのより多くの参加を奨励したいと考えています。
コードはhttps://github.com/wdrink/simplearで入手できます。

要約(オリジナル)

This work presents SimpleAR, a vanilla autoregressive visual generation framework without complex architecure modifications. Through careful exploration of training and inference optimization, we demonstrate that: 1) with only 0.5B parameters, our model can generate 1024×1024 resolution images with high fidelity, and achieve competitive results on challenging text-to-image benchmarks, e.g., 0.59 on GenEval and 79.66 on DPG; 2) both supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) training could lead to significant improvements on generation aesthectics and prompt alignment; and 3) when optimized with inference acceleraton techniques like vLLM, the time for SimpleAR to generate an 1024×1024 image could be reduced to around 14 seconds. By sharing these findings and open-sourcing the code, we hope to reveal the potential of autoregressive visual generation and encourage more participation in this research field. Code is available at https://github.com/wdrink/SimpleAR.

arxiv情報

著者 Junke Wang,Zhi Tian,Xun Wang,Xinyu Zhang,Weilin Huang,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-04-15 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク