How to Train Neural Field Representations: A Comprehensive Study and Benchmark

要約

ニューラル フィールド (NeF) は、画像、形状、シーンなどのさまざまなモダリティの信号をモデル化するための汎用性の高い方法として最近登場しました。
その後、多くの研究で、下流タスクの表現として NeF の使用が検討されました。
画像に適合した NeF のパラメーターに基づいて画像を分類します。
ただし、下流表現としての品質に対する NeF ハイパーパラメータの影響はほとんど理解されておらず、ほとんど調査されていないままです。
これは、神経フィールドのデータセットを適合させるのに多大な時間がかかることが部分的に原因です。
この研究では、並列化を活用して大規模な NeF データセットの高速最適化を可能にし、大幅な速度向上を実現する JAX ベースのライブラリを提案します。
このライブラリを使用して、下流タスクの NeF のフィッティングに対するさまざまなハイパーパラメータの影響を調査する包括的な調査を実行します。
特に、共有初期化の使用、オーバートレーニングの影響、使用されるネットワーク アーキテクチャの表現力について調査します。
私たちの研究は、NeF のトレーニング方法に関する貴重な洞察を提供し、下流のアプリケーションでの NeF の効果を最適化するためのガイダンスを提供します。
最後に、提案されたライブラリと私たちの分析に基づいて、MNIST、CIFAR、ImageNet のバリアント、ShapeNetv2 などの一般的な視覚データセットのニューラル フィールド バリアントで構成されるベンチマークである Neural Field Arena を提案します。
私たちのライブラリと Neural Field Arena は、標準化されたベンチマークを導入し、ニューラル フィールドに関するさらなる研究を促進するためにオープンソース化されます。

要約(オリジナル)

Neural fields (NeFs) have recently emerged as a versatile method for modeling signals of various modalities, including images, shapes, and scenes. Subsequently, a number of works have explored the use of NeFs as representations for downstream tasks, e.g. classifying an image based on the parameters of a NeF that has been fit to it. However, the impact of the NeF hyperparameters on their quality as downstream representation is scarcely understood and remains largely unexplored. This is in part caused by the large amount of time required to fit datasets of neural fields. In this work, we propose a JAX-based library that leverages parallelization to enable fast optimization of large-scale NeF datasets, resulting in a significant speed-up. With this library, we perform a comprehensive study that investigates the effects of different hyperparameters on fitting NeFs for downstream tasks. In particular, we explore the use of a shared initialization, the effects of overtraining, and the expressiveness of the network architectures used. Our study provides valuable insights on how to train NeFs and offers guidance for optimizing their effectiveness in downstream applications. Finally, based on the proposed library and our analysis, we propose Neural Field Arena, a benchmark consisting of neural field variants of popular vision datasets, including MNIST, CIFAR, variants of ImageNet, and ShapeNetv2. Our library and the Neural Field Arena will be open-sourced to introduce standardized benchmarking and promote further research on neural fields.

arxiv情報

著者 Samuele Papa,Riccardo Valperga,David Knigge,Miltiadis Kofinas,Phillip Lippe,Jan-Jakob Sonke,Efstratios Gavves
発行日 2024-06-05 15:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク