Equivariant Image Modeling

要約

自己回帰や拡散アプローチなどの現在の生成モデルは、高次元データ分布学習を一連のより単純なサブタスクに分解します。
ただし、これらのサブタスクの共同最適化中に固有の競合が発生し、既存のソリューションは、効率やスケーラビリティを犠牲にすることなく、そのような競合を解決できません。
自然な視覚信号の翻訳不変性を活用することにより、サブタスク全体で最適化ターゲットを本質的に整列させる新しい等変化画像モデリングフレームワークを提案します。
私たちの方法では、(1)水平軸に沿った翻訳の対称性を強化する列ごとのトークン化と、(2)位置間で一貫したコンテキスト関係を強制するウィンドウされた因果関係を紹介します。
256×256解像度でクラス条件のイメージネット生成で評価されたこのアプローチは、最先端のARモデルに匹敵するパフォーマンスを達成し、計算リソースを使用します。
系統的分析は、等寛容を強化するとタスク間の競合が減少し、ゼロショットの一般化が大幅に改善され、超長い画像合成が可能になることが示されています。
この作業は、生成モデリングにおけるタスクに整合した分解の最初のフレームワークを確立し、効率的なパラメーター共有と競合のない最適化に関する洞察を提供します。
コードとモデルは、https://github.com/drx-code/equivariantmodelingで公開されています。

要約(オリジナル)

Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256×256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

arxiv情報

著者 Ruixiao Dong,Mengde Xu,Zigang Geng,Li Li,Han Hu,Shuyang Gu
発行日 2025-03-24 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク