Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

要約

多くのロボット工学およびVR/ARアプリケーションでは、カメラの動きが高速なモーションブラーを引き起こし、既存のカメラポーズ推定方法を失敗させます。
この作業では、モーションのぼやけを、それを望ましくないアーティファクトとして扱うのではなく、モーション推定の豊富な手がかりとして活用する新しいフレームワークを提案します。
私たちのアプローチは、単一のモーションブルーされた画像から直接、密なモーションフローフィールドと単眼深度マップを予測することで機能します。
次に、小さな動きの仮定の下で線形最小二乗問題を解くことにより、瞬時カメラ速度を回復します。
本質的に、私たちの方法は、高速で攻撃的なカメラの動きを堅牢にキャプチャするIMUのような測定を生成します。
モデルをトレーニングするために、Scannet ++ V2から導出された現実的な合成モーションブルールを使用して大規模なデータセットを構築し、完全に微分可能なパイプラインを使用して実際のデータでエンドツーエンドをトレーニングすることにより、モデルをさらに改良します。
現実世界のベンチマークでの広範な評価は、この方法が最先端の角度および翻訳速度推定値を達成し、Mast3RやColMapなどの現在の方法を上回ることを示しています。

要約(オリジナル)

In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

arxiv情報

著者 Jerred Chen,Ronald Clark
発行日 2025-04-01 09:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク