要約
変圧器構造でうまく採用された自己注意メカニズムは、画像認識や物体検出を含む多くのコンピュータービジョンタスクで有望であることが示されています。
急増にもかかわらず、ステレオマッチングの問題のための変圧器の使用は比較的未踏のままです。
この論文では、ステレオマッチングの問題、特に腹腔鏡ビデオのトランスフォーマーの使用を包括的に調査し、CNNとトランスフォーマーの長所を統合設計で組み合わせた新しいハイブリッドディープステレオマッチングフレームワーク(HybridStereoNet)を提案します。
。
具体的には、設計の損失状況とドメイン内/ドメイン間精度を分析することにより、トランスをボリュームステレオマッチングパイプラインに導入するいくつかの方法を調査します。
私たちの分析では、特徴表現学習にトランスフォーマーを使用し、コスト集計にCNNを使用すると、他のオプションよりも収束が速く、精度が高く、一般化が向上することが示唆されています。
Sceneflow、SCARED2019、およびdVPNデータセットに関する広範な実験は、HybridStereoNetの優れたパフォーマンスを示しています。
要約(オリジナル)
The self-attention mechanism, successfully employed with the transformer structure is shown promise in many computer vision tasks including image recognition, and object detection. Despite the surge, the use of the transformer for the problem of stereo matching remains relatively unexplored. In this paper, we comprehensively investigate the use of the transformer for the problem of stereo matching, especially for laparoscopic videos, and propose a new hybrid deep stereo matching framework (HybridStereoNet) that combines the best of the CNN and the transformer in a unified design. To be specific, we investigate several ways to introduce transformers to volumetric stereo matching pipelines by analyzing the loss landscape of the designs and in-domain/cross-domain accuracy. Our analysis suggests that employing transformers for feature representation learning, while using CNNs for cost aggregation will lead to faster convergence, higher accuracy and better generalization than other options. Our extensive experiments on Sceneflow, SCARED2019 and dVPN datasets demonstrate the superior performance of our HybridStereoNet.
arxiv情報
著者 | Xuelian Cheng,Yiran Zhong,Mehrtash Harandi,Tom Drummond,Zhiyong Wang,Zongyuan Ge |
発行日 | 2022-07-25 12:54:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google