Elucidating the design space of language models for image generation

要約

テキスト生成における自己回帰 (AR) 言語モデルの成功により、コンピューター ビジョン コミュニティは画像生成に大規模言語モデル (LLM) を採用するようになりました。
しかし、テキストと画像のモダリティの本質的な違いを考慮すると、画像生成のための言語モデルの設計空間は依然として十分に研究されていません。
画像トークンはテキスト トークンと比較してより大きなランダム性を示し、トークン予測を使用してトレーニングする際に課題が生じることが観察されました。
それにもかかわらず、AR モデルは、一見最適ではない最適化問題からでもパターンを効果的に学習することでその可能性を実証します。
私たちの分析では、すべてのモデルが画像生成におけるローカル情報の重要性をうまく把握している一方で、より小さなモデルはグローバルなコンテキストを把握するのに苦労していることも明らかになりました。
対照的に、より大きなモデルではこの領域の機能が向上しており、モデル サイズをスケールアップしたときに達成されるパフォーマンスの向上を説明するのに役立ちます。
広範な比較実験を通じて、トークナイザーの選択、モデルの選択、モデルのスケーラビリティ、語彙設計、サンプリング戦略など、ビジョン生成のための言語モデルの設計空間をさらに解明します。
私たちの研究は、ビジョン生成における言語モデルの最適化動作を初めて分析したものであり、LM を他のドメインに適用する際に、より効果的な設計を促すことができると考えています。
最後に、ELM と呼ばれる画像生成用の解明された言語モデルは、ImageNet 256*256 ベンチマークで最先端のパフォーマンスを達成します。
コードは https://github.com/Pepperlll/LMforImageGeneration.git で入手できます。

要約(オリジナル)

The success of autoregressive (AR) language models in text generation has inspired the computer vision community to adopt Large Language Models (LLMs) for image generation. However, considering the essential differences between text and image modalities, the design space of language models for image generation remains underexplored. We observe that image tokens exhibit greater randomness compared to text tokens, which presents challenges when training with token prediction. Nevertheless, AR models demonstrate their potential by effectively learning patterns even from a seemingly suboptimal optimization problem. Our analysis also reveals that while all models successfully grasp the importance of local information in image generation, smaller models struggle to capture the global context. In contrast, larger models showcase improved capabilities in this area, helping to explain the performance gains achieved when scaling up model size. We further elucidate the design space of language models for vision generation, including tokenizer choice, model choice, model scalability, vocabulary design, and sampling strategy through extensive comparative experiments. Our work is the first to analyze the optimization behavior of language models in vision generation, and we believe it can inspire more effective designs when applying LMs to other domains. Finally, our elucidated language model for image generation, termed as ELM, achieves state-of-the-art performance on the ImageNet 256*256 benchmark. The code is available at https://github.com/Pepperlll/LMforImageGeneration.git.

arxiv情報

著者 Xuantong Liu,Shaozhe Hao,Xianbiao Qi,Tianyang Hu,Jun Wang,Rong Xiao,Yuan Yao
発行日 2024-10-21 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク