PIP: Positional-encoding Image Prior

要約

Deep Image Prior (DIP) では、畳み込みニューラル ネットワーク (CNN) を適合させて、潜在空間を劣化した (ノイズの多い) 画像にマッピングしますが、その過程でクリーンな画像を再構築することを学習します。
この現象は、CNN の内部イメージ プリオールに起因します。
DIP フレームワークを再検討し、ニューラルの暗黙的表現の観点から検討します。
この観点に動機付けられて、ランダムまたは学習された潜在をフーリエ特徴(位置エンコーディング)に置き換えます。
フーリエ特徴のプロパティのおかげで、畳み込み層を単純なピクセルレベルの MLP に置き換えることができることを示します。
このスキームを「Positional Encoding Image Prior」(PIP) と名付け、必要なパラメータがはるかに少なく、さまざまな画像再構成タスクで DIP と非常によく似た動作をすることを示します。
さらに、PIP は、3D-DIP が苦労して不安定になるビデオに簡単に拡張できることを示しています。
ビデオを含むすべてのタスクのコードと追加の例は、プロジェクト ページ https://nimrodshabtay.github.io/PIP/ で入手できます。

要約(オリジナル)

In Deep Image Prior (DIP), a Convolutional Neural Network (CNN) is fitted to map a latent space to a degraded (e.g. noisy) image but in the process learns to reconstruct the clean image. This phenomenon is attributed to CNN’s internal image-prior. We revisit the DIP framework, examining it from the perspective of a neural implicit representation. Motivated by this perspective, we replace the random or learned latent with Fourier-Features (Positional Encoding). We show that thanks to the Fourier features properties, we can replace the convolution layers with simple pixel-level MLPs. We name this scheme “Positional Encoding Image Prior’ (PIP) and exhibit that it performs very similarly to DIP on various image-reconstruction tasks with much less parameters required. Additionally, we demonstrate that PIP can be easily extended to videos, where 3D-DIP struggles and suffers from instability. Code and additional examples for all tasks, including videos, are available on the project page https://nimrodshabtay.github.io/PIP/

arxiv情報

著者 Nimrod Shabtay,Eli Schwartz,Raja Giryes
発行日 2022-11-25 18:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク