Jet: A Modern Transformer-Based Normalizing Flow

要約

これまで、生成フローの正規化は、自然画像の生成モデルの有望なクラスとして浮上してきました。
このタイプのモデルには、入力データの対数尤度を効率的に計算できること、高速に生成できること、全体の構造がシンプルであることなど、多くのモデリング上の利点があります。
フローの正規化は引き続き活発な研究テーマでしたが、サンプルの視覚的品質が GAN、VQ-VAE ベースのアプローチ、拡散モデルなどの他のモデル クラスと競合しなかったため、後に人気がなくなりました。
この論文では、以前の設計選択を慎重に除去し、畳み込みニューラル ネットワークではなく、Vision Transformer アーキテクチャに基づく計算ブロックを使用することにより、結合ベースの正規化フロー モデルの設計を再検討します。
その結果、はるかにシンプルなアーキテクチャで最先端の定量的および定性的パフォーマンスを実現します。
全体的な視覚的品質は依然として現在の最先端モデルには及ばないものの、強力な正規化フロー モデルは、より強力な生成モデルの構築コンポーネントとして機能するため、研究フロンティアの前進に役立つ可能性があると私たちは主張します。

要約(オリジナル)

In the past, normalizing generative flows have emerged as a promising class of generative models for natural images. This type of model has many modeling advantages: the ability to efficiently compute log-likelihood of the input data, fast generation and simple overall structure. Normalizing flows remained a topic of active research but later fell out of favor, as visual quality of the samples was not competitive with other model classes, such as GANs, VQ-VAE-based approaches or diffusion models. In this paper we revisit the design of the coupling-based normalizing flow models by carefully ablating prior design choices and using computational blocks based on the Vision Transformer architecture, not convolutional neural networks. As a result, we achieve state-of-the-art quantitative and qualitative performance with a much simpler architecture. While the overall visual quality is still behind the current state-of-the-art models, we argue that strong normalizing flow models can help advancing research frontier by serving as building components of more powerful generative models.

arxiv情報

著者 Alexander Kolesnikov,André Susano Pinto,Michael Tschannen
発行日 2024-12-19 18:09:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク