Geometric Algebra Planes: Convex Implicit Neural Volumes

要約

ボリュームのパラメータ化は、古典的なボクセル グリッドから暗黙的なニューラル表現、およびその間のあらゆるものに至るまで、最近の文献にたくさんあります。
暗黙的表現はボクセル グリッドと比較して優れた容量と優れたメモリ効率を示していますが、これまでのところ、非凸最適化によるトレーニングが必要です。
この非凸トレーニング プロセスは収束が遅く、最終的な収束結果に影響を与える初期化やハイパーパラメータの選択に影響されやすい場合があります。
我々は、凸最適化によってトレーニングできる暗黙的なニューラル ボリューム表現の最初のクラスであるモデルのファミリーである GA-Planes を導入します。
GA-Planes モデルには、テンソル基底要素に格納された特徴の任意の組み合わせが含まれ、その後にニューラル特徴デコーダーが続きます。
これらは多くの既存の表現を一般化し、さまざまな逆問題の必要に応じて凸、半凸、または非凸のトレーニングに適応させることができます。
2D 設定では、GA-Planes が低ランクと低解像度の行列分解に相当することを証明します。
この近似は、自然画像のフィッティングに関して、古典的な低ランク + スパース分解よりも優れていることを示します。
3D では、輝度フィールド再構成、3D セグメンテーション、ビデオ セグメンテーションという 3 つのボリューム フィッティング タスクにわたる表現力、モデル サイズ、最適化性の点で GA-Planes の競争力のあるパフォーマンスを実証します。

要約(オリジナル)

Volume parameterizations abound in recent literature, from the classic voxel grid to the implicit neural representation and everything in between. While implicit representations have shown impressive capacity and better memory efficiency compared to voxel grids, to date they require training via nonconvex optimization. This nonconvex training process can be slow to converge and sensitive to initialization and hyperparameter choices that affect the final converged result. We introduce a family of models, GA-Planes, that is the first class of implicit neural volume representations that can be trained by convex optimization. GA-Planes models include any combination of features stored in tensor basis elements, followed by a neural feature decoder. They generalize many existing representations and can be adapted for convex, semiconvex, or nonconvex training as needed for different inverse problems. In the 2D setting, we prove that GA-Planes is equivalent to a low-rank plus low-resolution matrix factorization; we show that this approximation outperforms the classic low-rank plus sparse decomposition for fitting a natural image. In 3D, we demonstrate GA-Planes’ competitive performance in terms of expressiveness, model size, and optimizability across three volume fitting tasks: radiance field reconstruction, 3D segmentation, and video segmentation.

arxiv情報

著者 Irmak Sivgin,Sara Fridovich-Keil,Gordon Wetzstein,Mert Pilanci
発行日 2024-11-21 13:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク