要約
量子化オートエンコーダでは、画像は通常、ローカル パッチに分割され、それぞれが 1 つのトークンでエンコードされます。
この表現は、その領域内の視覚情報コンテンツに関係なく、領域ごとに同じ数のトークンが消費されるという意味で冗長です。
クアッドツリーのような適応型離散化スキームは、さまざまなサイズのパッチにトークンを割り当てるために適用されますが、これはトークンの影響範囲を変えるだけであり、それでもローカルな記述子のままです。
最新のアーキテクチャでは、オートエンコーダにアテンション メカニズムが追加され、ある程度のグローバル情報がローカル トークンに注入されます。
グローバル コンテキストにもかかわらず、トークンは依然としてローカル イメージ領域に関連付けられています。
対照的に、私たちの方法は、入力信号をグローバル周波数の重ね合わせに変換するスペクトル分解からインスピレーションを得ています。
データ駆動型の観点から、VQ-VAE セットアップのコードブック エントリに対応するカスタム基底関数を学習します。
さらに、デコーダは、スペクトル分解の単純な線形重ね合わせを超えて、これらの基底関数を非線形方式で結合します。
特徴とチャネル間の効率的な転置操作によってこのグローバルな記述を実現し、圧縮のパフォーマンスを実証できます。
要約(オリジナル)
In quantised autoencoders, images are usually split into local patches, each encoded by one token. This representation is redundant in the sense that the same number of tokens is spend per region, regardless of the visual information content in that region. Adaptive discretisation schemes like quadtrees are applied to allocate tokens for patches with varying sizes, but this just varies the region of influence for a token which nevertheless remains a local descriptor. Modern architectures add an attention mechanism to the autoencoder which infuses some degree of global information into the local tokens. Despite the global context, tokens are still associated with a local image region. In contrast, our method is inspired by spectral decompositions which transform an input signal into a superposition of global frequencies. Taking the data-driven perspective, we learn custom basis functions corresponding to the codebook entries in our VQ-VAE setup. Furthermore, a decoder combines these basis functions in a non-linear fashion, going beyond the simple linear superposition of spectral decompositions. We can achieve this global description with an efficient transpose operation between features and channels and demonstrate our performance on compression.
arxiv情報
著者 | Tim Elsner,Paula Usinger,Victor Czech,Gregor Kobsik,Yanjiang He,Isaak Lim,Leif Kobbelt |
発行日 | 2024-08-05 17:50:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google