要約
この論文では、2 つの主要な要素に基づいた自己回帰画像生成への新しいアプローチを採用します。
1 つ目はウェーブレット画像コーディングです。これにより、最上位ウェーブレット係数の最上位ビットから始まる情報を順序付けすることで、画像の視覚的詳細を粗い細部から細かい細部までトークン化できます。
2 つ目は、この「ウェーブレット言語」のトークン シーケンス向けにアーキテクチャが再設計され、最適化された言語トランスフォーマーのバリアントです。
トランスフォーマーは、トークン シーケンス内の重要な統計的相関関係を学習します。これは、さまざまな解像度でのウェーブレット サブバンド間のよく知られた相関関係の現れです。
生成過程に条件付けを加えた実験結果を示します。
要約(オリジナル)
In this paper, we take a new approach to autoregressive image generation that is based on two main ingredients. The first is wavelet image coding, which allows to tokenize the visual details of an image from coarse to fine details by ordering the information starting with the most significant bits of the most significant wavelet coefficients. The second is a variant of a language transformer whose architecture is re-designed and optimized for token sequences in this ‘wavelet language’. The transformer learns the significant statistical correlations within a token sequence, which are the manifestations of well-known correlations between the wavelet subbands at various resolutions. We show experimental results with conditioning on the generation process.
arxiv情報
著者 | Wael Mattar,Idan Levy,Nir Sharon,Shai Dekel |
発行日 | 2024-06-28 15:32:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google