高レベルのダウンストリーム タスクの印象的なパフォーマンスにもかかわらず、ステレオ マッチングなどの高密度の幾何学的視覚タスクでは、自己教師ありの事前トレーニング方法はまだ完全には提供されていません。
この作業では、最近のクロスビュー補完フレームワークに基づいて構築します。マスクされた画像モデリングのこのバリエーションは、同じシーンからの 2 番目のビューを利用します。これは、両眼のダウンストリーム タスクに適しています。
ただし、この概念の適用可能性は、これまで少なくとも 2 つの方法で制限されていました。(a) 現実世界の画像のペアを収集することの難しさ (実際には合成データのみが使用されていた)、および (b) 一般化の欠如。
絶対的な位置よりも相対的な位置の方が重要な高密度のダウンストリーム タスクへのバニラ トランスフォーマーの使用。
改善の 3 つの方法を検討します。まず、適切な実世界の画像ペアを大規模に収集する方法を紹介します。
次に、相対位置埋め込みを実験し、それらがビジョン トランスフォーマーのパフォーマンスを大幅に向上させることを実証します。
第三に、大量のデータを使用することで可能になるビジョン トランスフォーマー ベースのクロスコンプリート アーキテクチャをスケールアップします。
これらの改善により、相関ボリューム、反復推定、マルチスケール推論などの標準的なタスク固有の手法を使用せずに、ディープ ステレオ マッチングに関する最先端の結果に到達できることを初めて示しました。
Despite impressive performance for high-level downstream tasks, self-supervised pre-training methods have not yet fully delivered on dense geometric vision tasks such as stereo matching. The application of self-supervised learning concepts, such as instance discrimination or masked image modeling, to geometric tasks is an active area of research. In this work we build on the recent cross-view completion framework: this variation of masked image modeling leverages a second view from the same scene, which is well suited for binocular downstream tasks. However, the applicability of this concept has so far been limited in at least two ways: (a) by the difficulty of collecting real-world image pairs – in practice only synthetic data had been used – and (b) by the lack of generalization of vanilla transformers to dense downstream tasks for which relative position is more meaningful than absolute position. We explore three avenues of improvement: first, we introduce a method to collect suitable real-world image pairs at large scale. Second, we experiment with relative positional embeddings and demonstrate that they enable vision transformers to perform substantially better. Third, we scale up vision transformer based cross-completion architectures, which is made possible by the use of large amounts of data. With these improvements, we show for the first time that state-of-the-art results on deep stereo matching can be reached without using any standard task-specific techniques like correlation volume, iterative estimation or multi-scale reasoning.
著者 | Philippe Weinzaepfel,Vaibhav Arora,Yohann Cabon,Thomas Lucas,Romain Brégier,Vincent Leroy,Gabriela Csurka,Leonid Antsfeld,Boris Chidlovskii,Jérôme Revaud |
発行日 | 2022-11-18 18:18:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google