Unleashing the Potential of Large Language Models for Text-to-Image Generation through Autoregressive Representation Alignment

要約

Autore-Gonsision表現アライメント(ARRA)は、アーキテクチャの変更なしに自己回帰LLMSのグローバルコヒーレントテキストから画像の生成を解き放つ新しいトレーニングフレームワークです。
複雑なアーキテクチャの再設計を必要とする以前の作業とは異なり、ARRAは、グローバルな視覚アライメント損失とハイブリッドトークンを介して、外部の視覚的基礎モデルからの視覚的表現とLLM隠された状態を整列させます。
このトークンは、ローカルネクストトークンの予測とグローバルなセマンティック蒸留という二重の制約を実施し、LLMが元の自己回避パラダイムを保持しながら空間的および文脈的一貫性を暗黙的に学習できるようにします。
広範な実験は、ARRAのプラグアンドプレイの汎用性を検証します。
テキストジェネレーションのみのLLMSまたはランダムな初期化からのトレーニングの場合、ARRAは、ChameleonやLlamagenのような高度な自己回帰LLMのFIDを25.5%(Mimic-CXR)、8.8%(Deepeyenet)、および7.5%(Imagenet)減少させます。
ドメインの適応では、ARRAは一般的な視覚LLMを特殊なモデル(BiomedClipなど)に整列させ、医療イメージング(MIMIC-CXR)の直接微調整よりも18.6%のFID削減を達成します。
トレーニング目標の再設計は、建築革新だけでなく、クロスモーダルのグローバルコヒーレンスの課題を解決できることを実証することにより、ARRAは自己回帰モデルを進めるための補完的なパラダイムを提供します。
コードとモデルはリリースされ、自動回復画像生成を進めます。

要約(オリジナル)

We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token, . This token enforces dual constraints: local next-token prediction and global semantic distillation, enabling LLMs to implicitly learn spatial and contextual coherence while retaining their original autoregressive paradigm. Extensive experiments validate ARRA’s plug-and-play versatility. When training from text-generation-only LLMs or random initialization, ARRA reduces FID by 25.5% (MIMIC-CXR), 8.8% (DeepEyeNet), and 7.5% (ImageNet) for advanced autoregressive LLMs like Chameleon and LlamaGen, all without framework modifications. For domain adaption, ARRA aligns general-purpose LLMs with specialized models (e.g., BioMedCLIP), achieving an 18.6% FID reduction over direct fine-tuning on medical imaging (MIMIC-CXR). By demonstrating that training objective redesign — not just architectural innovation — can resolve cross-modal global coherence challenges, ARRA offers a complementary paradigm for advancing autoregressive models. Code and models will be released to advance autoregressive image generation.

arxiv情報

著者 Xing Xie,Jiawei Liu,Ziyue Lin,Huijie Fan,Zhi Han,Yandong Tang,Liangqiong Qu
発行日 2025-03-10 13:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク