CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

要約

マルチビュー ステレオ (MVS) の中核は、参照ピクセルとソース ピクセル間のマッチング プロセスです。
コスト集計はこのプロセスで重要な役割を果たしますが、以前の方法では CNN を介して処理することに重点が置かれていました。
これは、局所的な受容野が限られているため、反復一致または不正確な一致を識別できないという CNN の自然な制限を受け継いでいる可能性があります。
この問題に対処するために、Transformer をコスト集計に参加させることを目指しています。
ただし、Transformer によって二次関数的に増加する計算の複雑さによって別の問題が発生し、メモリ オーバーフローや推論遅延が発生する可能性があります。
このペーパーでは、効率的な Transformer ベースのコスト集約ネットワーク、つまり CostFormer を使用してこれらの制限を克服します。
Residual Depth-Aware Cost Transformer (RDACT) は、深さと空間次元に沿った自己注意メカニズムを介してコスト ボリュームに関する長距離特徴を集約するために提案されています。
さらに、空間的注意を強化するために残差回帰変換器(RRT)が提案されています。
提案された方法は、学習ベースの MVS 方法を改善するためのユニバーサル プラグインです。

要約(オリジナル)

The core of Multi-view Stereo(MVS) is the matching process among reference and source pixels. Cost aggregation plays a significant role in this process, while previous methods focus on handling it via CNNs. This may inherit the natural limitation of CNNs that fail to discriminate repetitive or incorrect matches due to limited local receptive fields. To handle the issue, we aim to involve Transformer into cost aggregation. However, another problem may occur due to the quadratically growing computational complexity caused by Transformer, resulting in memory overflow and inference latency. In this paper, we overcome these limits with an efficient Transformer-based cost aggregation network, namely CostFormer. The Residual Depth-Aware Cost Transformer(RDACT) is proposed to aggregate long-range features on cost volume via self-attention mechanisms along the depth and spatial dimensions. Furthermore, Residual Regression Transformer(RRT) is proposed to enhance spatial attention. The proposed method is a universal plug-in to improve learning-based MVS methods.

arxiv情報

著者 Weitao Chen,Hongbin Xu,Zhipeng Zhou,Yang Liu,Baigui Sun,Wenxiong Kang,Xuansong Xie
発行日 2023-05-17 16:01:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク