要約
高レベルの下流タスクでは目覚ましいパフォーマンスを発揮しますが、自己教師付き事前トレーニング手法は、ステレオ マッチングやオプティカル フローなどの高密度幾何学視覚タスクではまだ完全には提供されていません。
インスタンスの識別やマスクされた画像モデリングなどの自己教師ありの概念を幾何学的タスクに適用することは、活発な研究分野です。
この作業では、同じシーンからの 2 番目のビューを活用するマスクされた画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークを基盤としており、両眼の下流タスクに適しています。
この概念の適用可能性は、これまでのところ、少なくとも 2 つの点で制限されています。(a) 現実世界の画像ペアを収集することの難しさによって (実際には合成データのみが使用されているため)、(b) 一般化の欠如によって。
絶対位置よりも相対位置の方が重要な、高密度の下流タスクへのバニラトランスフォーマーの使用。
私たちは 3 つの改善方法を検討します。
まず、適切な現実世界の画像ペアを大規模に収集する方法を紹介します。
次に、相対位置埋め込みを実験し、それによってビジョン トランスフォーマーのパフォーマンスが大幅に向上することを示します。
3 番目に、ビジョン トランスフォーマー ベースのクロスコンプリーション アーキテクチャをスケールアップします。これは、大量のデータの使用によって可能になります。
これらの改善により、相関ボリューム、反復推定、画像ワーピング、マルチスケール推論などの古典的なタスク固有の手法を使用せずに、ステレオ マッチングとオプティカル フローに関する最先端の結果が得られることを初めて示しました。
これにより、ユニバーサル ビジョン モデルへの道が開かれます。
要約(オリジナル)
Despite impressive performance for high-level downstream tasks, self-supervised pre-training methods have not yet fully delivered on dense geometric vision tasks such as stereo matching or optical flow. The application of self-supervised concepts, such as instance discrimination or masked image modeling, to geometric tasks is an active area of research. In this work, we build on the recent cross-view completion framework, a variation of masked image modeling that leverages a second view from the same scene which makes it well suited for binocular downstream tasks. The applicability of this concept has so far been limited in at least two ways: (a) by the difficulty of collecting real-world image pairs — in practice only synthetic data have been used — and (b) by the lack of generalization of vanilla transformers to dense downstream tasks for which relative position is more meaningful than absolute position. We explore three avenues of improvement. First, we introduce a method to collect suitable real-world image pairs at large scale. Second, we experiment with relative positional embeddings and show that they enable vision transformers to perform substantially better. Third, we scale up vision transformer based cross-completion architectures, which is made possible by the use of large amounts of data. With these improvements, we show for the first time that state-of-the-art results on stereo matching and optical flow can be reached without using any classical task-specific techniques like correlation volume, iterative estimation, image warping or multi-scale reasoning, thus paving the way towards universal vision models.
arxiv情報
著者 | Philippe Weinzaepfel,Thomas Lucas,Vincent Leroy,Yohann Cabon,Vaibhav Arora,Romain Brégier,Gabriela Csurka,Leonid Antsfeld,Boris Chidlovskii,Jérôme Revaud |
発行日 | 2023-08-18 15:06:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google