Learning Kernel-Modulated Neural Representation for Efficient Light Field Compression

要約

ライトフィールドは、シーンからさまざまな方向で放射される光線を記録することによって 3D シーン情報をキャプチャする画像データの一種です。
従来の 2D 画像よりも没入感が高くなりますが、データ量が膨大になります。
この論文では、ライト フィールドのサブアパーチャ イメージ (SAI) の視覚特性からインスピレーションを得て、ライト フィールド圧縮タスク用のコンパクトなニューラル ネットワーク表現を設計します。
ネットワーク バックボーンは、ランダムに初期化されたノイズを入力として受け取り、ターゲット ライト フィールドの SAI で監視されます。
これは、トレーニング中に学習したシーン記述情報を保存する記述カーネル (ディスクリプター) と、クエリされた視点からさまざまな SAI のレンダリングを制御する変調カーネル (モジュレーター) の 2 種類の補完カーネルで構成されます。
復号されたライトフィールドの高品質を維持しながらネットワークのコンパクト性をさらに高めるために、変調器の割り当てとカーネルテンソル分解メカニズムを導入し、その後に不均一量子化と可逆エントロピーコーディング技術を導入して、最終的に効率的な圧縮パイプラインを形成します。
広範な実験により、私たちの方法が光フィールド圧縮タスクにおいて他の最先端(SOTA)方法よりも大幅に優れていることが実証されました。
さらに、記述子を調整した後、1 つのライト フィールドから学習した変調器を新しいライト フィールドに転送して、密なビューをレンダリングできます。これは、ビュー合成タスクの潜在的な解決策を示しています。

要約(オリジナル)

Light field is a type of image data that captures the 3D scene information by recording light rays emitted from a scene at various orientations. It offers a more immersive perception than classic 2D images but at the cost of huge data volume. In this paper, we draw inspiration from the visual characteristics of Sub-Aperture Images (SAIs) of light field and design a compact neural network representation for the light field compression task. The network backbone takes randomly initialized noise as input and is supervised on the SAIs of the target light field. It is composed of two types of complementary kernels: descriptive kernels (descriptors) that store scene description information learned during training, and modulatory kernels (modulators) that control the rendering of different SAIs from the queried perspectives. To further enhance compactness of the network meanwhile retain high quality of the decoded light field, we accordingly introduce modulator allocation and kernel tensor decomposition mechanisms, followed by non-uniform quantization and lossless entropy coding techniques, to finally form an efficient compression pipeline. Extensive experiments demonstrate that our method outperforms other state-of-the-art (SOTA) methods by a significant margin in the light field compression task. Moreover, after aligning descriptors, the modulators learned from one light field can be transferred to new light fields for rendering dense views, indicating a potential solution for view synthesis task.

arxiv情報

著者 Jinglei Shi,Yihong Xu,Christine Guillemot
発行日 2023-07-12 12:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク