ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis

要約

最近、トークンベースの生成が画像合成において有効であることが実証されました。
代表的な例として、非自己回帰トランスフォーマー (NAT) は、いくつかの手順で適切な品質の画像を生成できます。
NAT は漸進的な方法で生成を実行し、結果として得られるイメージの潜在トークンが段階的に明らかにされます。
各ステップで、公開されていない画像領域にマスク トークンが埋め込まれ、NAT によって推論されます。
この論文では、NAT の有効性の背後にあるメカニズムを詳しく掘り下げ、NAT から自然に現れる 2 つの重要なパターンを明らかにします。空間的に (ステップ内で)、マスクと可視トークンは NAT によって均一に処理されますが、それらの間の相互作用は非常に非対称です。

具体的には、マスク トークンは主にデコード用の情報を収集しますが、可視トークンは主に情報を提供する傾向があり、その深い表現はそれ自体に基づいてのみ構築できます。
時間的に (ステップ全体で)、隣接する生成ステップ間の相互作用は、ほとんどが少数の重要なトークンの表現の更新に集中しますが、大部分のトークンの計算は一般に反復的です。
これらの発見に基づいて、NAT に固有の重要な相互作用を明示的に促進する NAT モデルである EfficientNAT (ENAT) を提案します。
空間レベルでは、完全にエンコードされた可視トークンを条件としてマスク トークンをデコードしながら、可視トークンを個別にエンコードすることで可視トークンとマスク トークンの計算を解きます。
時間レベルでは、各ステップで重要なトークンの計算に優先順位を付けながら、以前に計算されたトークン表現を最大限に再利用して必要な情報を補足します。
ENAT は、計算コストを大幅に削減して、NAT のパフォーマンスを特に向上させます。
ImageNet-256、ImageNet-512、MS-COCO の実験により、ENAT の有効性が検証されています。
コードは https://github.com/LeapLabTHU/ENAT で入手できます。

要約(オリジナル)

Recently, token-based generation have demonstrated their effectiveness in image synthesis. As a representative example, non-autoregressive Transformers (NATs) can generate decent-quality images in a few steps. NATs perform generation in a progressive manner, where the latent tokens of a resulting image are incrementally revealed. At each step, the unrevealed image regions are padded with mask tokens and inferred by NAT. In this paper, we delve into the mechanisms behind the effectiveness of NATs and uncover two important patterns that naturally emerge from NATs: Spatially (within a step), although mask and visible tokens are processed uniformly by NATs, the interactions between them are highly asymmetric. In specific, mask tokens mainly gather information for decoding, while visible tokens tend to primarily provide information, and their deep representations can be built only upon themselves. Temporally (across steps), the interactions between adjacent generation steps mostly concentrate on updating the representations of a few critical tokens, while the computation for the majority of tokens is generally repetitive. Driven by these findings, we propose EfficientNAT (ENAT), a NAT model that explicitly encourages these critical interactions inherent in NATs. At the spatial level, we disentangle the computations of visible and mask tokens by encoding visible tokens independently, while decoding mask tokens conditioned on the fully encoded visible tokens. At the temporal level, we prioritize the computation of the critical tokens at each step, while maximally reusing previously computed token representations to supplement necessary information. ENAT improves the performance of NATs notably with significantly reduced computational cost. Experiments on ImageNet-256, ImageNet-512 and MS-COCO validate the effectiveness of ENAT. Code is available at https://github.com/LeapLabTHU/ENAT.

arxiv情報

著者 Zanlin Ni,Yulin Wang,Renping Zhou,Yizeng Han,Jiayi Guo,Zhiyuan Liu,Yuan Yao,Gao Huang
発行日 2024-11-11 13:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク