CodingHomo: Bootstrapping Deep Homography With Video Coding

要約

ホモグラフィーの推定は、多様な分野でのアプリケーションを備えたコンピュータービジョンの基本的なタスクです。
深い学習の最近の進歩により、特に監視されていない学習アプローチにより、ホモグラフィーの推定が改善され、堅牢性と一般化が向上します。
ただし、特に複雑な動きでホモグラフィーを正確に予測することは、依然として課題です。
これに応じて、この作業では、ビデオに存在する固有のモーションベクトル(MV)を活用することにより、ビデオコーディングを活用する新しい方法を導入します。
ホモグラフィーの推定のための監視されていないフレームワークであるCodinghomoを提示します。
私たちのフレームワークは、MVS間で有益な機能を識別および利用するマスク誘導融合(MGF)モジュールを備えているため、ホモグラフィー予測の精度を高めます。
さらに、粗から金色のホモグラフィーの改良プロセスで望ましくない機能を排除するために、マスク誘導ホモグラフィー推定(MGHE)モジュールが提示されています。
Codinghomoは、既存の最先端の監視なしの方法を上回り、優れた堅牢性と一般化可能性を提供します。
コードとデータセットは、\ href {github} {https://github.com/liuyike422/codinghomoで利用できます

要約(オリジナル)

Homography estimation is a fundamental task in computer vision with applications in diverse fields. Recent advances in deep learning have improved homography estimation, particularly with unsupervised learning approaches, offering increased robustness and generalizability. However, accurately predicting homography, especially in complex motions, remains a challenge. In response, this work introduces a novel method leveraging video coding, particularly by harnessing inherent motion vectors (MVs) present in videos. We present CodingHomo, an unsupervised framework for homography estimation. Our framework features a Mask-Guided Fusion (MGF) module that identifies and utilizes beneficial features among the MVs, thereby enhancing the accuracy of homography prediction. Additionally, the Mask-Guided Homography Estimation (MGHE) module is presented for eliminating undesired features in the coarse-to-fine homography refinement process. CodingHomo outperforms existing state-of-the-art unsupervised methods, delivering good robustness and generalizability. The code and dataset are available at: \href{github}{https://github.com/liuyike422/CodingHomo

arxiv情報

著者 Yike Liu,Haipeng Li,Shuaicheng Liu,Bing Zeng
発行日 2025-04-16 15:18:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク