Playing to Vision Foundation Model’s Strengths in Stereo Matching

要約

ステレオ マッチングは、インテリジェント車両における 3D 環境認識の重要な技術となっています。
かなり長い間、畳み込みニューラル ネットワーク (CNN) がこの分野の特徴抽出の主流の選択肢であり続けました。
それにもかかわらず、既存のパラダイムはビジョン基盤モデル (VFM)、特にビジョン トランスフォーマー (ViT) に基づいて開発され、ラベルのない広範なデータセットに対する自己監視を通じて事前トレーニングされたモデルに向けて進化すべきであるというコンセンサスが高まっています。
VFM は、特に高密度予測タスクにおいて、有益な汎用視覚特徴を抽出することに長けていますが、幾何学的視覚タスクではパフォーマンスが不十分なことがよくあります。
この研究は、VFM をステレオ マッチングに適応させるための実行可能なアプローチの最初の探索として機能します。
ViTAS と呼ばれる当社の ViT アダプターは、空間微分、パッチ アテンション フュージョン、クロス アテンションの 3 種類のモジュールに基づいて構築されています。
最初のモジュールは特徴ピラミッドを初期化し、後の 2 つのモジュールはステレオおよびマルチスケールのコンテキスト情報をそれぞれ詳細な特徴に集約します。
ViTAS とコストボリュームベースのステレオマッチングバックエンドプロセスを組み合わせた ViTAStereo は、KITTI Stereo 2012 データセットでトップランクを達成し、エラーピクセルの割合に関して 2 番目に優れたネットワーク StereoBase を約 7.9% 上回っています。
許容誤差は 3 ピクセルです。
さまざまなシナリオにわたる追加の実験により、他のすべての最先端のアプローチと比較して、その優れた一般化可能性がさらに実証されました。
私たちは、この新しいパラダイムが次世代のステレオ マッチング ネットワークへの道を切り開くと信じています。

要約(オリジナル)

Stereo matching has become a key technique for 3D environment perception in intelligent vehicles. For a considerable time, convolutional neural networks (CNNs) have remained the mainstream choice for feature extraction in this domain. Nonetheless, there is a growing consensus that the existing paradigm should evolve towards vision foundation models (VFM), particularly those developed based on vision Transformers (ViTs) and pre-trained through self-supervision on extensive, unlabeled datasets. While VFMs are adept at extracting informative, general-purpose visual features, specifically for dense prediction tasks, their performance often lacks in geometric vision tasks. This study serves as the first exploration of a viable approach for adapting VFMs to stereo matching. Our ViT adapter, referred to as ViTAS, is constructed upon three types of modules: spatial differentiation, patch attention fusion, and cross-attention. The first module initializes feature pyramids, while the latter two aggregate stereo and multi-scale contextual information into fine-grained features, respectively. ViTAStereo, which combines ViTAS with cost volume-based stereo matching back-end processes, achieves the top rank on the KITTI Stereo 2012 dataset and outperforms the second-best network StereoBase by approximately 7.9% in terms of the percentage of error pixels, with a tolerance of 3 pixels. Additional experiments across diverse scenarios further demonstrate its superior generalizability compared to all other state-of-the-art approaches. We believe this new paradigm will pave the way for the next generation of stereo matching networks.

arxiv情報

著者 Chuang-Wei Liu,Qijun Chen,Rui Fan
発行日 2024-04-09 12:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク