Global Occlusion-Aware Transformer for Robust Stereo Matching

要約

学習ベースのステレオマッチングアルゴリズムによって促進された目覚ましい進歩にもかかわらず、オクルージョンされた領域などの条件の悪い領域でのパフォーマンスは依然としてボトルネックとなっています。
受容野が限られているため、既存の CNN ベースの手法では、これらの条件の悪い領域を効果的に処理するのが困難です。
この問題に対処するために、この論文では、視差推定に長距離依存性とオクルージョン認識グローバル コンテキストを利用する、Global Occlusion-Aware Transformer (GOAT) と呼ばれる新しいアテンションベースのステレオ マッチング ネットワークを紹介します。
GOAT アーキテクチャでは、並列アテンション メカニズムを使用して初期視差マップとオクルージョン マスクを推定する並列視差およびオクルージョン推定モジュール PDO が提案されています。
オクルージョンされた領域の視差推定をさらに強化するために、オクルージョンを認識したグローバル集約モジュール (OGA) が提案されています。
このモジュールは、オクルージョンされた領域のフォーカス範囲内で制限されたグローバル相関を活用することにより、オクルージョンされた領域における不均衡を改善することを目的としています。
SceneFlow、KITTI 2015、Middlebury など、いくつかの公開ベンチマーク データセットに対して広範な実験が行われました。
結果は、提案された GOAT がすべてのベンチマークの中で、特に閉塞された領域で優れたパフォーマンスを示していることを示しています。

要約(オリジナル)

Despite the remarkable progress facilitated by learning-based stereo-matching algorithms, the performance in the ill-conditioned regions, such as the occluded regions, remains a bottleneck. Due to the limited receptive field, existing CNN-based methods struggle to handle these ill-conditioned regions effectively. To address this issue, this paper introduces a novel attention-based stereo-matching network called Global Occlusion-Aware Transformer (GOAT) to exploit long-range dependency and occlusion-awareness global context for disparity estimation. In the GOAT architecture, a parallel disparity and occlusion estimation module PDO is proposed to estimate the initial disparity map and the occlusion mask using a parallel attention mechanism. To further enhance the disparity estimates in the occluded regions, an occlusion-aware global aggregation module (OGA) is proposed. This module aims to refine the disparity in the occluded regions by leveraging restricted global correlation within the focus scope of the occluded areas. Extensive experiments were conducted on several public benchmark datasets including SceneFlow, KITTI 2015, and Middlebury. The results show that the proposed GOAT demonstrates outstanding performance among all benchmarks, particularly in the occluded regions.

arxiv情報

著者 Zihua Liu,Yizhou Li,Masatoshi Okutomi
発行日 2023-12-22 12:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク