Physics-Informed Ensemble Representation for Light-Field Image Super-Resolution

要約

最近の学習ベースのアプローチは、畳み込みベースまたはトランスフォーマーベースのネットワーク構造を探索することにより、ライト フィールド (LF) 画像の超解像度 (SR) において大幅な進歩を達成しました。
ただし、LF イメージングには、十分に活用されていない多くの固有の物理的事前分布があります。
この論文では、LF 画像の幾何学的関係を明らかにするために、LF 画像処理の座標変換を分析します。
このような幾何学的事前分布に基づいて、サブアパーチャ画像を補完するサブピクセル情報を提供する仮想スリット画像 (VSI) の新しい LF サブ空間を導入します。
扱いやすい複雑さで 4 次元データにわたる豊富な相関を活用するために、より効果的な特徴抽出のためにすべての $C_4^2$ LF 部分空間の学習アンサンブル表現を提案します。
アンダーサンプリングされた LF データから画像構造を超解像するために、LF 物理事前分布を使用してトランスフォーマーの動作検索領域を制約する、EPIXformer という名前のジオメトリ認識デコーダーを提案します。
空間 SR タスクと角度 SR タスクの両方に関する実験結果は、提案された方法が、特にさまざまな視差の処理において、他の最先端のスキームよりも優れていることを示しています。

要約(オリジナル)

Recent learning-based approaches have achieved significant progress in light field (LF) image super-resolution (SR) by exploring convolution-based or transformer-based network structures. However, LF imaging has many intrinsic physical priors that have not been fully exploited. In this paper, we analyze the coordinate transformation of the LF imaging process to reveal the geometric relationship in the LF images. Based on such geometric priors, we introduce a new LF subspace of virtual-slit images (VSI) that provide sub-pixel information complementary to sub-aperture images. To leverage the abundant correlation across the four-dimensional data with manageable complexity, we propose learning ensemble representation of all $C_4^2$ LF subspaces for more effective feature extraction. To super-resolve image structures from undersampled LF data, we propose a geometry-aware decoder, named EPIXformer, which constrains the transformer’s operational searching regions with a LF physical prior. Experimental results on both spatial and angular SR tasks demonstrate that the proposed method outperforms other state-of-the-art schemes, especially in handling various disparities.

arxiv情報

著者 Manchang Jin,Gaosheng Liu,Kunshu Hu,Xin Luo,Kun Li,Jingyu Yang
発行日 2023-05-31 16:27:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク