MVSFormer: Multi-View Stereo by Learning Robust Image Features and Temperature-based Depth

要約

特徴表現学習は、学習ベースのマルチビュー ステレオ (MVS) の重要なレシピです。
学習ベースの MVS の一般的な特徴抽出器であるバニラの特徴ピラミッド ネットワーク (FPN) は、反射領域とテクスチャのない領域の特徴表現が推奨されず、MVS の一般化が制限されます。
事前トレーニング済みの畳み込みニューラル ネットワーク (CNN) を使用する FPN でさえ、これらの問題に取り組むことができません。
一方、ビジョン トランスフォーマー (ViT) は、多くの 2D ビジョン タスクで顕著な成功を収めています。
したがって、ViT が MVS での機能学習を促進できるかどうかを尋ねます。
このホワイト ペーパーでは、MVSFormer と呼ばれる事前トレーニング済みの ViT 拡張 MVS ネットワークを提案します。MVSFormer は、ViT から有益な事前情報を利用して、より信頼性の高い特徴表現を学習できます。
効率的な注意メカニズムの階層的な ViT を備えた微調整された MVSFormer は、FPN に基づいて顕著な改善を達成できます。
その上、固定された ViT 重みを持つ代替 MVSFormer がさらに提案されます。
これにより、自己蒸留プレトレーニングからのアテンションマップによって強化された競争力のあるパフォーマンスにより、トレーニングコストが大幅に軽減されます。
MVSFormer は、勾配累積によって強化された効率的なマルチスケール トレーニングを使用して、さまざまな入力解像度に一般化できます。
さらに、分類と回帰ベースの MVS メソッドの長所と短所について説明し、温度ベースの戦略でそれらを統合することをさらに提案します。
MVSFormer は、DTU データセットで最先端のパフォーマンスを実現します。
特に、MVSFormer は、非常に競争の激しいタンク アンド テンプルズ リーダーボードの中級セットと上級セットの両方でトップ 1 にランクされています。

要約(オリジナル)

Feature representation learning is the key recipe for learning-based Multi-View Stereo (MVS). As the common feature extractor of learning-based MVS, vanilla Feature Pyramid Networks (FPNs) suffer from discouraged feature representations for reflection and texture-less areas, which limits the generalization of MVS. Even FPNs worked with pre-trained Convolutional Neural Networks (CNNs) fail to tackle these issues. On the other hand, Vision Transformers (ViTs) have achieved prominent success in many 2D vision tasks. Thus we ask whether ViTs can facilitate feature learning in MVS? In this paper, we propose a pre-trained ViT enhanced MVS network called MVSFormer, which can learn more reliable feature representations benefited by informative priors from ViT. The finetuned MVSFormer with hierarchical ViTs of efficient attention mechanisms can achieve prominent improvement based on FPNs. Besides, the alternative MVSFormer with frozen ViT weights is further proposed. This largely alleviates the training cost with competitive performance strengthened by the attention map from the self-distillation pre-training. MVSFormer can be generalized to various input resolutions with efficient multi-scale training strengthened by gradient accumulation. Moreover, we discuss the merits and drawbacks of classification and regression-based MVS methods, and further propose to unify them with a temperature-based strategy. MVSFormer achieves state-of-the-art performance on the DTU dataset. Particularly, MVSFormer ranks as Top-1 on both intermediate and advanced sets of the highly competitive Tanks-and-Temples leaderboard.

arxiv情報

著者 Chenjie Cao,Xinlin Ren,Yanwei Fu
発行日 2022-12-16 13:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク