FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus

要約

焦点スタックからの深度推定は、画像スタック内の焦点/焦点ぼけの手がかりから深さを推測することを目的とした基本的なコンピューター ビジョンの問題です。
既存の手法のほとんどは、一連の固定スタック画像に対して 2D または 3D 畳み込みを伴う畳み込みニューラル ネットワーク (CNN) を適用して、画像とスタック全体の特徴を学習することでこの問題に取り組んでいます。
CNN のパフォーマンスは CNN の局所的な特性により制限されており、学習と推論において一貫した固定数のスタックを処理するように制約されており、スタックの任意の長さへの一般化が制限されています。
上記の制限に対処するために、私たちは主に LSTM モジュールを備えた Transformer と CNN デコーダで構成される新しい Transformer ベースのネットワーク FocDepthFormer を開発しました。
Transformer のセルフアテンションにより、暗黙的な非ローカル相互参照を通じて、より有益な特徴を学習できるようになります。
LSTM モジュールは、スタック全体の表現を任意の画像と統合するように学習されます。
さまざまな程度の焦点/焦点ぼけの低レベルの特徴を直接キャプチャするために、初期段階のエンコーダーでマルチスケール畳み込みカーネルを使用することを提案します。
LSTM を使用した設計の恩恵を受け、当社の FocDepthFormer は、視覚的なパターンをキャプチャするための豊富な単眼 RGB 深度推定データを使用して事前トレーニングすることができ、収集が難しい焦点スタック データの需要を軽減します。
さまざまなフォーカル スタック ベンチマーク データセットに対する広範な実験により、私たちのモデルが複数の指標において最先端のモデルよりも優れていることが示されました。

要約(オリジナル)

Depth estimation from focal stacks is a fundamental computer vision problem that aims to infer depth from focus/defocus cues in the image stacks. Most existing methods tackle this problem by applying convolutional neural networks (CNNs) with 2D or 3D convolutions over a set of fixed stack images to learn features across images and stacks. Their performance is restricted due to the local properties of the CNNs, and they are constrained to process a fixed number of stacks consistent in train and inference, limiting the generalization to the arbitrary length of stacks. To handle the above limitations, we develop a novel Transformer-based network, FocDepthFormer, composed mainly of a Transformer with an LSTM module and a CNN decoder. The self-attention in Transformer enables learning more informative features via an implicit non-local cross reference. The LSTM module is learned to integrate the representations across the stack with arbitrary images. To directly capture the low-level features of various degrees of focus/defocus, we propose to use multi-scale convolutional kernels in an early-stage encoder. Benefiting from the design with LSTM, our FocDepthFormer can be pre-trained with abundant monocular RGB depth estimation data for visual pattern capturing, alleviating the demand for the hard-to-collect focal stack data. Extensive experiments on various focal stack benchmark datasets show that our model outperforms the state-of-the-art models on multiple metrics.

arxiv情報

著者 Xueyang Kang,Fengze Han,Abdur Fayjie,Dong Gong
発行日 2023-10-17 11:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, I.2.10 パーマリンク