MaDis-Stereo: Enhanced Stereo Matching via Distilled Masked Image Modeling

要約

ステレオ マッチングでは、CNN が伝統的に主要なアーキテクチャとして機能してきました。
Transformer ベースのステレオ モデルは最近研究されていますが、ステレオ マッチング タスクに固有のデータ不足の問題があるため、そのパフォーマンスは依然として CNN ベースのステレオ モデルよりも遅れています。
この論文では、MaDis-Stereo と呼ばれるマスクされたイメージ モデリングの蒸留ステレオ マッチング モデルを提案します。これは、Transformer ベースのステレオ モデルのトレーニングにマスクされたイメージ モデリング (MIM) を活用することで、局所性誘導バイアスを強化します。
入力としてランダムにマスクされたステレオ画像が与えられると、私たちの方法は画像再構成タスクと深さ予測タスクの両方を実行しようとします。
この戦略はデータ不足の問題の解決には有益ですが、マスクされたトークンの再構築とその後のステレオ マッチングの実行という 2 つの課題により、特にトレーニングの安定性の点で重大な課題が生じます。
これに対処するために、元のステレオ モデル (生徒) とともに、指数移動平均 (EMA) によって更新される補助ネットワーク (教師) を使用することを提案します。そこでは、教師の予測が疑似監視信号として機能し、知識を効果的に生徒モデルに抽出します。

最先端のパフォーマンスは、ETH3D や KITTI 2015 などのいくつかのステレオ マッチングにおいて、提案された方法で達成されます。さらに、私たちのモデルが局所性誘導バイアスを効果的に活用していることを実証するために、注意距離測定を提供します。

要約(オリジナル)

In stereo matching, CNNs have traditionally served as the predominant architectures. Although Transformer-based stereo models have been studied recently, their performance still lags behind CNN-based stereo models due to the inherent data scarcity issue in the stereo matching task. In this paper, we propose Masked Image Modeling Distilled Stereo matching model, termed MaDis-Stereo, that enhances locality inductive bias by leveraging Masked Image Modeling (MIM) in training Transformer-based stereo model. Given randomly masked stereo images as inputs, our method attempts to conduct both image reconstruction and depth prediction tasks. While this strategy is beneficial to resolving the data scarcity issue, the dual challenge of reconstructing masked tokens and subsequently performing stereo matching poses significant challenges, particularly in terms of training stability. To address this, we propose to use an auxiliary network (teacher), updated via Exponential Moving Average (EMA), along with the original stereo model (student), where teacher predictions serve as pseudo supervisory signals to effectively distill knowledge into the student model. State-of-the-arts performance is achieved with the proposed method on several stereo matching such as ETH3D and KITTI 2015. Additionally, to demonstrate that our model effectively leverages locality inductive bias, we provide the attention distance measurement.

arxiv情報

著者 Jihye Ahn,Hyesong Choi,Soomin Kim,Dongbo Min
発行日 2024-09-04 16:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク