要約
特徴対応の学習はコンピュータビジョンにおける基礎的なタスクであり、視覚的オドメトリや3D再構成などの下流のアプリケーションにとって非常に重要である。近年のデータ駆動モデルの進歩にもかかわらず、特徴対応学習は、正確な画素毎の対応ラベルの欠如により、依然として制限されている。この困難を克服するために、我々は、特徴対応学習のための新しい自己教師付き学習法(imperative learning: IL)を導入する。これは、カメラのポーズや深度ラベルを一切持たない、任意の中断のない動画に対する対応学習が可能であり、自己教師付き対応学習の新時代の到来を告げるものである。具体的には、対応学習問題を2値最適化として定式化し、バンドル調整による再投影誤差をモデルの監視信号とする。大きなメモリと計算オーバヘッドを回避するため、定常点を活用し、バンドル調整による暗黙の勾配を効果的に逆伝播する。広範な実験を通して、特徴マッチングやポーズ推定を含むタスクにおいて優れた性能を実証し、最先端のマッチングモデルに対して平均30%の精度向上を得た。
要約(オリジナル)
Learning feature correspondence is a foundational task in computer vision, holding immense importance for downstream applications such as visual odometry and 3D reconstruction. Despite recent progress in data-driven models, feature correspondence learning is still limited by the lack of accurate per-pixel correspondence labels. To overcome this difficulty, we introduce a new self-supervised scheme, imperative learning (IL), for training feature correspondence. It enables correspondence learning on arbitrary uninterrupted videos without any camera pose or depth labels, heralding a new era for self-supervised correspondence learning. Specifically, we formulated the problem of correspondence learning as a bilevel optimization, which takes the reprojection error from bundle adjustment as a supervisory signal for the model. To avoid large memory and computation overhead, we leverage the stationary point to effectively back-propagate the implicit gradients through bundle adjustment. Through extensive experiments, we demonstrate superior performance on tasks including feature matching and pose estimation, in which we obtained an average of 30% accuracy gain over the state-of-the-art matching models.
arxiv情報
著者 | Zitong Zhan,Dasong Gao,Yun-Jou Lin,Youjie Xia,Chen Wang |
発行日 | 2023-12-04 18:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |