When Epipolar Constraint Meets Non-local Operators in Multi-View Stereo

要約

学習ベースのマルチビュー ステレオ (MVS) 手法は特徴マッチングに大きく依存しており、特徴マッチングには特徴的で説明的な表現が必要です。
効果的な解決策は、Transformer などの非ローカル特徴集約を適用することです。
これらの手法は便利ではありますが、MVS に大きな計算オーバーヘッドをもたらします。
それぞれのピクセルが画像全体に密に関与しています。
対照的に、我々は、非局所特徴の拡張を線のペア内に制限することを提案します。つまり、各点は、対応するエピポーラ線のペアにのみ存在します。
私たちのアイデアは古典的なエピポーラ幾何学からインスピレーションを得ており、異なる深さの仮説を持つ 1 つの点が他のビューのエピポーラ ラインに投影されることを示しています。
この制約により、2D 検索空間がステレオ マッチングのエピポーラ ラインに縮小されます。
同様に、これは、MVS のマッチングが同じ線上にある一連の点を区別することであることを示唆しています。
このポイントツーライン検索に触発されて、私たちはラインツーポイントの非ローカル拡張戦略を考案しました。
まず、2D 特徴マップをエピポーラ ライン ペアに分割するための最適化された検索アルゴリズムを考案します。
次に、エピポーラ トランスフォーマ (ET) がエピポーラ ライン ペア間の非局所的な特徴の拡張を実行します。
ET を、ET-MVSNet という名前の学習ベースの MVS ベースラインに組み込みます。
ET-MVSNet は、DTU と Tanks-and-Temples の両方のベンチマークで最先端の再構成パフォーマンスを高効率で実現します。
コードは https://github.com/TQTQliu/ET-MVSNet で入手できます。

要約(オリジナル)

Learning-based multi-view stereo (MVS) method heavily relies on feature matching, which requires distinctive and descriptive representations. An effective solution is to apply non-local feature aggregation, e.g., Transformer. Albeit useful, these techniques introduce heavy computation overheads for MVS. Each pixel densely attends to the whole image. In contrast, we propose to constrain non-local feature augmentation within a pair of lines: each point only attends the corresponding pair of epipolar lines. Our idea takes inspiration from the classic epipolar geometry, which shows that one point with different depth hypotheses will be projected to the epipolar line on the other view. This constraint reduces the 2D search space into the epipolar line in stereo matching. Similarly, this suggests that the matching of MVS is to distinguish a series of points lying on the same line. Inspired by this point-to-line search, we devise a line-to-point non-local augmentation strategy. We first devise an optimized searching algorithm to split the 2D feature maps into epipolar line pairs. Then, an Epipolar Transformer (ET) performs non-local feature augmentation among epipolar line pairs. We incorporate the ET into a learning-based MVS baseline, named ET-MVSNet. ET-MVSNet achieves state-of-the-art reconstruction performance on both the DTU and Tanks-and-Temples benchmark with high efficiency. Code is available at https://github.com/TQTQliu/ET-MVSNet.

arxiv情報

著者 Tianqi Liu,Xinyi Ye,Weiyue Zhao,Zhiyu Pan,Min Shi,Zhiguo Cao
発行日 2023-09-29 13:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク