Conv-INR: Convolutional Implicit Neural Representation for Multimodal Visual Signals

要約

暗黙的ニューラル表現 (INR) は、信号表現の有望なパラダイムとして最近浮上しています。
通常、INR は、座標を入力として受け取り、信号の対応する属性を生成するマルチプレイヤー パーセプトロン (MLP) によってパラメータ化されます。
ただし、MLP ベースの INR は 2 つの重大な問題に直面しています。i) 接続を無視して各座標を個別に考慮する。
ii) スペクトルの偏りがあり、高周波成分を学習できません。
ターゲット視覚信号は通常、強い局所構造と近傍依存性を示し、これらの信号では高周波成分が重要ですが、この問題は INR の表現能力に悪影響を及ぼします。
この論文では、完全に畳み込みに基づいた最初の INR モデルである Conv-INR を提案します。
畳み込みの固有の属性により、Conv-INR は隣接する座標を同時に考慮し、高周波成分を効果的に学習できます。
既存の MLP ベースの INR と比較して、Conv-INR は、一次関数の拡張を必要とせずに、より優れた表現能力とトレーニング可能性を備えています。
画像フィッティング、CT/MRI 再構成、新規ビュー合成を含む 4 つのタスクについて広範な実験を行っており、Conv-INR はすべて既存の MLP ベースの INR を大幅に上回り、有効性が検証されています。
最後に、追加の推論コストを導入せずにバニラ Conv-INR のパフォーマンスをさらに向上できる 3 つの再パラメータ化方法を紹介します。

要約(オリジナル)

Implicit neural representation (INR) has recently emerged as a promising paradigm for signal representations. Typically, INR is parameterized by a multiplayer perceptron (MLP) which takes the coordinates as the inputs and generates corresponding attributes of a signal. However, MLP-based INRs face two critical issues: i) individually considering each coordinate while ignoring the connections; ii) suffering from the spectral bias thus failing to learn high-frequency components. While target visual signals usually exhibit strong local structures and neighborhood dependencies, and high-frequency components are significant in these signals, the issues harm the representational capacity of INRs. This paper proposes Conv-INR, the first INR model fully based on convolution. Due to the inherent attributes of convolution, Conv-INR can simultaneously consider adjacent coordinates and learn high-frequency components effectively. Compared to existing MLP-based INRs, Conv-INR has better representational capacity and trainability without requiring primary function expansion. We conduct extensive experiments on four tasks, including image fitting, CT/MRI reconstruction, and novel view synthesis, Conv-INR all significantly surpasses existing MLP-based INRs, validating the effectiveness. Finally, we raise three reparameterization methods that can further enhance the performance of the vanilla Conv-INR without introducing any extra inference cost.

arxiv情報

著者 Zhicheng Cai
発行日 2024-06-06 16:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク