Neural Processing of Tri-Plane Hybrid Neural Fields

要約

3D データを保存および通信するニューラル フィールドの魅力的な特性に推進されて、分類やパーツのセグメンテーションなどのタスクに対処するためにデータを直接処理するという問題が浮上し、最近の研究で研究されています。
初期のアプローチでは、データセット全体でトレーニングされた共有ネットワークによってパラメータ化されたニューラル フィールドが使用され、良好なタスク パフォーマンスが達成されますが、再構成の品質は犠牲になります。
後者を改善するために、後の方法では、大きな多層パーセプトロン (MLP) としてパラメータ化された個々のニューラル フィールドに焦点を当てていますが、重み空間の高次元性、固有の重み空間の対称性、およびランダムに対する感度のため、処理が困難です。
初期化。
したがって、結果は、点群やメッシュなどの明示的な表現を処理することによって得られる結果よりも大幅に劣ることがわかります。
一方、ハイブリッド表現、特にトライプレーンに基づくハイブリッド表現は、神経場を実現するためのより効果的かつ効率的な代替手段として浮上していますが、その直接処理についてはまだ調査されていません。
この論文では、トライプレーンの離散データ構造が豊富な情報をエンコードし、標準的な深層学習機械で効果的に処理できることを示します。
占有率、符号付き/符号なし距離、そして初めて放射輝度フィールドなど、さまざまなフィールドをカバーする広範なベンチマークを定義します。
同じ再構成品質でフィールドを処理しながら、大規模な MLP を処理するフレームワークよりもはるかに優れたタスク パフォーマンスを実現し、初めて、明示的表現を処理するアーキテクチャとほぼ同等のパフォーマンスを実現します。

要約(オリジナル)

Driven by the appealing properties of neural fields for storing and communicating 3D data, the problem of directly processing them to address tasks such as classification and part segmentation has emerged and has been investigated in recent works. Early approaches employ neural fields parameterized by shared networks trained on the whole dataset, achieving good task performance but sacrificing reconstruction quality. To improve the latter, later methods focus on individual neural fields parameterized as large Multi-Layer Perceptrons (MLPs), which are, however, challenging to process due to the high dimensionality of the weight space, intrinsic weight space symmetries, and sensitivity to random initialization. Hence, results turn out significantly inferior to those achieved by processing explicit representations, e.g., point clouds or meshes. In the meantime, hybrid representations, in particular based on tri-planes, have emerged as a more effective and efficient alternative to realize neural fields, but their direct processing has not been investigated yet. In this paper, we show that the tri-plane discrete data structure encodes rich information, which can be effectively processed by standard deep-learning machinery. We define an extensive benchmark covering a diverse set of fields such as occupancy, signed/unsigned distance, and, for the first time, radiance fields. While processing a field with the same reconstruction quality, we achieve task performance far superior to frameworks that process large MLPs and, for the first time, almost on par with architectures handling explicit representations.

arxiv情報

著者 Adriano Cardace,Pierluigi Zama Ramirez,Francesco Ballerini,Allan Zhou,Samuele Salti,Luigi Di Stefano
発行日 2024-01-25 17:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク