要約
Autore-Gonsision表現アライメント(ARRA)は、アーキテクチャの変更なしに自己回帰LLMSのグローバルコヒーレントテキストから画像の生成を解き放つ新しいトレーニングフレームワークです。
複雑なアーキテクチャの再設計を必要とする以前の作業とは異なり、ARRAは、グローバルな視覚アライメント損失とハイブリッドトークン
このトークンは、ローカルネクストトークンの予測とグローバルなセマンティック蒸留という二重の制約を実施し、LLMが元の自己回避パラダイムを保持しながら空間的および文脈的一貫性を暗黙的に学習できるようにします。
広範な実験は、ARRAのプラグアンドプレイの汎用性を検証します。
テキストジェネレーションのみのLLMSまたはランダムな初期化からのトレーニングの場合、ARRAは、ChameleonやLlamagenのような高度な自己回帰LLMのFIDを25.5%(Mimic-CXR)、8.8%(Deepeyenet)、および7.5%(Imagenet)減少させます。
ドメインの適応では、ARRAは一般的な視覚LLMを特殊なモデル(BiomedClipなど)に整列させ、医療イメージング(MIMIC-CXR)の直接微調整よりも18.6%のFID削減を達成します。
トレーニング目標の再設計は、建築革新だけでなく、クロスモーダルのグローバルコヒーレンスの課題を解決できることを実証することにより、ARRAは自己回帰モデルを進めるための補完的なパラダイムを提供します。
コードとモデルはリリースされ、自動回復画像生成を進めます。
要約(オリジナル)
We present Autoregressive Representation Alignment (ARRA), a new training framework that unlocks global-coherent text-to-image generation in autoregressive LLMs without architectural changes. Unlike prior work that requires complex architectural redesigns, ARRA aligns LLM hidden states with visual representations from external visual foundational models via a global visual alignment loss and a hybrid token,
arxiv情報
著者 | Xing Xie,Jiawei Liu,Ziyue Lin,Huijie Fan,Zhi Han,Yandong Tang,Liangqiong Qu |
発行日 | 2025-03-10 13:49:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google