Disorder-invariant Implicit Neural Representation

要約

タイトル: Disorder-invariant Implicit Neural Representation

要約:
– 暗黙のニューラル表現(INR)は、対応する座標の関数として信号の属性を特徴付け、逆問題の解決の鋭い武器として現れます。
– しかし、INRの表現能力は、ネットワークトレーニングにおけるスペクトルバイアスによって制限されています。
– この論文では、入力信号の座標を再配置することによってそのような周波数関連の問題を大幅に解決できることを発見しました。これにより、従来のINRバックボーンにハッシュテーブルを拡張したdisorder-invariant implicit neural representation(DINER)を提案します。
– 属性のヒストグラムを共有しており、異なる順序で配置された離散信号が与えられた場合、ハッシュテーブルは座標を同じ分布に投影し、マップされた信号は後続のINRネットワークを用いてより良いモデル化が可能になり、スペクトルバイアスが軽減されます。
– 加えて、DINERの表現能力はハッシュテーブルの幅によって決まります。幅が1、2、3の場合、異なる幾何学的要素、例えば1次元曲線、2次元曲面、3次元曲体に対応します。幾何学的要素をカバーする領域が広いほど、表現力が高くなります。
– 実験では、画像/ビデオ表現、位相回復、屈折率回復、ニューラル輝度場最適化などのさまざまなタスクに対して、DINERが様々なINRバックボーン(MLP vs. SIREN)に対して良好な汎化性を持ち、ステートオブジャートアルゴリズムよりも優れた品質と速度であることが示されています。

要約(オリジナル)

Implicit neural representation (INR) characterizes the attributes of a signal as a function of corresponding coordinates which emerges as a sharp weapon for solving inverse problems. However, the expressive power of INR is limited by the spectral bias in the network training. In this paper, we find that such a frequency-related problem could be greatly solved by re-arranging the coordinates of the input signal, for which we propose the disorder-invariant implicit neural representation (DINER) by augmenting a hash-table to a traditional INR backbone. Given discrete signals sharing the same histogram of attributes and different arrangement orders, the hash-table could project the coordinates into the same distribution for which the mapped signal can be better modeled using the subsequent INR network, leading to significantly alleviated spectral bias. Furthermore, the expressive power of the DINER is determined by the width of the hash-table. Different width corresponds to different geometrical elements in the attribute space, \textit{e.g.}, 1D curve, 2D curved-plane and 3D curved-volume when the width is set as $1$, $2$ and $3$, respectively. More covered areas of the geometrical elements result in stronger expressive power. Experiments not only reveal the generalization of the DINER for different INR backbones (MLP vs. SIREN) and various tasks (image/video representation, phase retrieval, refractive index recovery, and neural radiance field optimization) but also show the superiority over the state-of-the-art algorithms both in quality and speed. \textit{Project page:} \url{https://ezio77.github.io/DINER-website/}

arxiv情報

著者 Hao Zhu,Shaowen Xie,Zhen Liu,Fengyi Liu,Qi Zhang,You Zhou,Yi Lin,Zhan Ma,Xun Cao
発行日 2023-04-03 09:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, eess.SP パーマリンク