SDformer: Efficient End-to-End Transformer for Depth Completion

要約

深度補完は、深度センサーからの疎な深度測定値を使用して密な深度マップを予測することを目的としています。
現在、畳み込みニューラル ネットワーク (CNN) ベースのモデルは、深度補完タスクに適用される最も一般的な方法です。
ただし、優れたハイエンド性能にもかかわらず、表現領域が限られているという問題があります。
CNN の欠点を克服するために、より効果的で強力な方法である Transformer が提案されました。これは、適応型セルフアテンション設定シーケンス間モデルです。
一方、標準の Transformer は、深度補完タスクを不適切に使用する入力解像度のキークエリの内積から計算コストを二次的に増加させます。
この研究では、Sparse-to-Dense Transformer (SDformer) という深さ補完タスク用の別のウィンドウベースの Transformer アーキテクチャを提案します。
このネットワークは、深度マップと RGB 画像特徴の抽出と連結のための入力モジュール、深度特徴を抽出するための U 字型エンコーダー/デコーダー トランスフォーマー、およびリファインメント モジュールで構成されます。
具体的には、まず入力モデルを通じて深度マップの特徴と RGB 画像の特徴を連結します。
次に、特徴マップ全体を使用してセルフ アテンションを計算する代わりに、さまざまなウィンドウ サイズを適用して、長距離の深さの依存関係を抽出します。
最後に、入力モジュールと U 字型エンコーダー/デコーダー Transformer モジュールからの予測特徴を改良して、豊かな深度特徴を取得し、畳み込み層を使用して高密度深度マップを取得します。
実際には、SDformer は、NYU Depth V2 および KITTI DC データセットのより低い計算負荷とパラメーターを使用して、CNN ベースの深度補完モデルに対して最先端の結果を取得します。

要約(オリジナル)

Depth completion aims to predict dense depth maps with sparse depth measurements from a depth sensor. Currently, Convolutional Neural Network (CNN) based models are the most popular methods applied to depth completion tasks. However, despite the excellent high-end performance, they suffer from a limited representation area. To overcome the drawbacks of CNNs, a more effective and powerful method has been presented: the Transformer, which is an adaptive self-attention setting sequence-to-sequence model. While the standard Transformer quadratically increases the computational cost from the key-query dot-product of input resolution which improperly employs depth completion tasks. In this work, we propose a different window-based Transformer architecture for depth completion tasks named Sparse-to-Dense Transformer (SDformer). The network consists of an input module for the depth map and RGB image features extraction and concatenation, a U-shaped encoder-decoder Transformer for extracting deep features, and a refinement module. Specifically, we first concatenate the depth map features with the RGB image features through the input model. Then, instead of calculating self-attention with the whole feature maps, we apply different window sizes to extract the long-range depth dependencies. Finally, we refine the predicted features from the input module and the U-shaped encoder-decoder Transformer module to get the enriching depth features and employ a convolution layer to obtain the dense depth map. In practice, the SDformer obtains state-of-the-art results against the CNN-based depth completion models with lower computing loads and parameters on the NYU Depth V2 and KITTI DC datasets.

arxiv情報

著者 Jian Qian,Miao Sun,Ashley Lee,Jie Li,Shenglong Zhuo,Patrick Yin Chiang
発行日 2024-09-12 15:52:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク