SDformer: Efficient End-to-End Transformer for Depth Completion


現在、畳み込みニューラル ネットワーク (CNN) ベースのモデルは、深度補完タスクに適用される最も一般的な方法です。
CNN の欠点を克服するために、より効果的で強力な方法である Transformer が提案されました。これは、適応型セルフアテンション設定シーケンス間モデルです。
一方、標準の Transformer は、深度補完タスクを不適切に使用する入力解像度のキークエリの内積から計算コストを二次的に増加させます。
この研究では、Sparse-to-Dense Transformer (SDformer) という深さ補完タスク用の別のウィンドウベースの Transformer アーキテクチャを提案します。
このネットワークは、深度マップと RGB 画像特徴の抽出と連結のための入力モジュール、深度特徴を抽出するための U 字型エンコーダー/デコーダー トランスフォーマー、およびリファインメント モジュールで構成されます。
具体的には、まず入力モデルを通じて深度マップの特徴と RGB 画像の特徴を連結します。
次に、特徴マップ全体を使用してセルフ アテンションを計算する代わりに、さまざまなウィンドウ サイズを適用して、長距離の深さの依存関係を抽出します。
最後に、入力モジュールと U 字型エンコーダー/デコーダー Transformer モジュールからの予測特徴を改良して、豊かな深度特徴を取得し、畳み込み層を使用して高密度深度マップを取得します。
実際には、SDformer は、NYU Depth V2 および KITTI DC データセットのより低い計算負荷とパラメーターを使用して、CNN ベースの深度補完モデルに対して最先端の結果を取得します。


Depth completion aims to predict dense depth maps with sparse depth measurements from a depth sensor. Currently, Convolutional Neural Network (CNN) based models are the most popular methods applied to depth completion tasks. However, despite the excellent high-end performance, they suffer from a limited representation area. To overcome the drawbacks of CNNs, a more effective and powerful method has been presented: the Transformer, which is an adaptive self-attention setting sequence-to-sequence model. While the standard Transformer quadratically increases the computational cost from the key-query dot-product of input resolution which improperly employs depth completion tasks. In this work, we propose a different window-based Transformer architecture for depth completion tasks named Sparse-to-Dense Transformer (SDformer). The network consists of an input module for the depth map and RGB image features extraction and concatenation, a U-shaped encoder-decoder Transformer for extracting deep features, and a refinement module. Specifically, we first concatenate the depth map features with the RGB image features through the input model. Then, instead of calculating self-attention with the whole feature maps, we apply different window sizes to extract the long-range depth dependencies. Finally, we refine the predicted features from the input module and the U-shaped encoder-decoder Transformer module to get the enriching depth features and employ a convolution layer to obtain the dense depth map. In practice, the SDformer obtains state-of-the-art results against the CNN-based depth completion models with lower computing loads and parameters on the NYU Depth V2 and KITTI DC datasets.


著者 Jian Qian,Miao Sun,Ashley Lee,Jie Li,Shenglong Zhuo,Patrick Yin Chiang
発行日 2024-09-12 15:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク