Spatial Functa: Scaling Functa to ImageNet Classification and Generation

要約

暗黙のニューラル表現としても知られるニューラル フィールドは、さまざまなモダリティの複雑な信号を表現するための強力な手段として登場しました。
このデュポンらに基づいています。
(2022) は、*functa* と呼ばれるデータとしてニューラル フィールドを表示するフレームワークを導入し、このニューラル フィールドのデータセットで直接ディープ ラーニングを行うことを提案しています。
この作業では、CIFAR-10 などの適度に複雑なデータセットにスケールアップするときに、提案されたフレームワークが制限に直面することを示します。
次に、*spatial functa* を提案します。これは、神経場の空間的に配置された潜在表現を使用してこれらの制限を克服し、256×256 解像度で ImageNet-1k へのアプローチをスケールアップできるようにします。
分類ではビジョン トランスフォーマー (Steiner et al., 2022)、画像生成では潜在拡散 (Rombach et al., 2022) にそれぞれ匹敵するパフォーマンスを示します。

要約(オリジナル)

Neural fields, also known as implicit neural representations, have emerged as a powerful means to represent complex signals of various modalities. Based on this Dupont et al. (2022) introduce a framework that views neural fields as data, termed *functa*, and proposes to do deep learning directly on this dataset of neural fields. In this work, we show that the proposed framework faces limitations when scaling up to even moderately complex datasets such as CIFAR-10. We then propose *spatial functa*, which overcome these limitations by using spatially arranged latent representations of neural fields, thereby allowing us to scale up the approach to ImageNet-1k at 256×256 resolution. We demonstrate competitive performance to Vision Transformers (Steiner et al., 2022) on classification and Latent Diffusion (Rombach et al., 2022) on image generation respectively.

arxiv情報

著者 Matthias Bauer,Emilien Dupont,Andy Brock,Dan Rosenbaum,Jonathan Richard Schwarz,Hyunjik Kim
発行日 2023-02-09 12:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク