Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing

要約

テキストからイメージの生成により、拡散モデルで画期的な進歩が見られ、高忠実度の統合と、通過操作による正確な画像編集が可能になりました。
最近、自動脱着(AR)モデルは強力な代替品として再出現し、拡散モデルに合わせて次のトークン生成を活用しています。
ただし、拡散モデル向けに設計された既存の編集手法は、構造制御の基本的な違いにより、ARモデルに直接変換できません。
具体的には、ARモデルは、注意マップの空間的貧困と、画像編集中の構造エラーの連続的な蓄積に悩まされており、オブジェクトのレイアウトとグローバルな一貫性を破壊します。
この作業では、ARビジュアルモデルの最初のトレーニングフリー編集戦略である暗黙の構造ロック(ISLOCK)を紹介します。
ISLockは、明示的な注意操作や微調整に依存するのではなく、アンカートークンマッチング(ATM)プロトコルを介して参照画像を動的に整列させることにより、構造的青写真を保存します。
潜在空間の構造的一貫性を暗黙的に強制することにより、私たちのメソッドISLOCKは、生成的自律性を維持しながら、構造認識の編集を可能にします。
広範な実験は、Islockが追加のトレーニングなしで高品質で構造一貫性のある編集を達成し、従来の編集技術に優れているか、同等であることを示しています。
私たちの調査結果は、効率的かつ柔軟なARベースの画像編集の先駆者であり、拡散モデルと自己回帰生成モデルの間のパフォーマンスギャップをさらに埋めます。
このコードは、https://github.com/hutaihang/atmで公開されます

要約(オリジナル)

Text-to-image generation has seen groundbreaking advancements with diffusion models, enabling high-fidelity synthesis and precise image editing through cross-attention manipulation. Recently, autoregressive (AR) models have re-emerged as powerful alternatives, leveraging next-token generation to match diffusion models. However, existing editing techniques designed for diffusion models fail to translate directly to AR models due to fundamental differences in structural control. Specifically, AR models suffer from spatial poverty of attention maps and sequential accumulation of structural errors during image editing, which disrupt object layouts and global consistency. In this work, we introduce Implicit Structure Locking (ISLock), the first training-free editing strategy for AR visual models. Rather than relying on explicit attention manipulation or fine-tuning, ISLock preserves structural blueprints by dynamically aligning self-attention patterns with reference images through the Anchor Token Matching (ATM) protocol. By implicitly enforcing structural consistency in latent space, our method ISLock enables structure-aware editing while maintaining generative autonomy. Extensive experiments demonstrate that ISLock achieves high-quality, structure-consistent edits without additional training and is superior or comparable to conventional editing techniques. Our findings pioneer the way for efficient and flexible AR-based image editing, further bridging the performance gap between diffusion and autoregressive generative models. The code will be publicly available at https://github.com/hutaiHang/ATM

arxiv情報

著者 Taihang Hu,Linxuan Li,Kai Wang,Yaxing Wang,Jian Yang,Ming-Ming Cheng
発行日 2025-04-14 17:25:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク