HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching


この論文では、リアルタイム ステレオ マッチング用の新しいニューラル ネットワーク アーキテクチャである HITNet について説明します。
フル コスト ボリュームで動作し、3D 畳み込みに依存する最近の多くのニューラル ネットワーク アプローチとは対照的に、私たちのアプローチはボリュームを明示的に構築せず、代わりに、高速なマルチ解像度初期化ステップ、微分可能な 2D 幾何学的伝播、およびディスパリティを推測するワーピング メカニズムに依存します。
執筆時点で、HITNet は ETH3D Web サイトで公開されている 2 ビュー ステレオのすべてのメトリックで 1 位から 3 位にランクされ、Middlebury-v3 のすべてのエンド ツー エンド学習アプローチの中でほとんどのメトリックで 1 位にランクされています。
公開されているメソッドの中で人気のある KITTI 2012 および 2015 ベンチマークは 100 ミリ秒より高速です。


This paper presents HITNet, a novel neural network architecture for real-time stereo matching. Contrary to many recent neural network approaches that operate on a full cost volume and rely on 3D convolutions, our approach does not explicitly build a volume and instead relies on a fast multi-resolution initialization step, differentiable 2D geometric propagation and warping mechanisms to infer disparity hypotheses. To achieve a high level of accuracy, our network not only geometrically reasons about disparities but also infers slanted plane hypotheses allowing to more accurately perform geometric warping and upsampling operations. Our architecture is inherently multi-resolution allowing the propagation of information across different levels. Multiple experiments prove the effectiveness of the proposed approach at a fraction of the computation required by state-of-the-art methods. At the time of writing, HITNet ranks 1st-3rd on all the metrics published on the ETH3D website for two view stereo, ranks 1st on most of the metrics among all the end-to-end learning approaches on Middlebury-v3, ranks 1st on the popular KITTI 2012 and 2015 benchmarks among the published methods faster than 100ms.


著者 Vladimir Tankovich,Christian Häne,Yinda Zhang,Adarsh Kowdle,Sean Fanello,Sofien Bouaziz
発行日 2023-01-19 23:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク