Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes

要約

手持ちの単眼ビデオから混雑した現実世界のシーンにおけるカメラの回転を推定するアプローチを紹介します。
カメラの回転推定はよく研究された問題ですが、この設定で高い精度と許容可能な速度の両方を示すこれまでの方法はありませんでした。
この設定は他のデータセットでは十分に対応されていないため、17 のビデオ シーケンスに対して、高精度で厳密に検証されたグラウンド トゥルースを備えた新しいデータセットとベンチマークを提供します。
ワイドベースラインステレオ用に開発された方法 (5 点法など) は、単眼ビデオではあまり機能しません。
一方、自動運転で使用される方法 (SLAM など) は、特定のセンサー設定、特定の動作モデル、またはローカル最適化戦略 (遅延バッチ処理) を活用しており、ハンドヘルドビデオには十分に一般化できません。
最後に、動的シーンの場合、RANSAC などの一般的に使用されるロバスト化手法は大量の反復を必要とし、法外に遅くなります。
オプティカル フローと最も互換性のあるカメラの回転を効率的かつ確実に見つけるために、SO(3) にハフ変換の新しい一般化を導入します。
比較的高速な方法の中で、私たちの方法は次に優れた方法よりもエラーをほぼ 50% 削減し、速度に関係なく、どの方法よりも正確です。
これは、コンピューター ビジョンの重要な設定である、混雑したシーンに対する強力な新しいパフォーマンス ポイントを表します。
コードとデータセットは https://fabiendelattre.com/robust-rotation-estimation で入手できます。

要約(オリジナル)

We present an approach to estimating camera rotation in crowded, real-world scenes from handheld monocular video. While camera rotation estimation is a well-studied problem, no previous methods exhibit both high accuracy and acceptable speed in this setting. Because the setting is not addressed well by other datasets, we provide a new dataset and benchmark, with high-accuracy, rigorously verified ground truth, on 17 video sequences. Methods developed for wide baseline stereo (e.g., 5-point methods) perform poorly on monocular video. On the other hand, methods used in autonomous driving (e.g., SLAM) leverage specific sensor setups, specific motion models, or local optimization strategies (lagging batch processing) and do not generalize well to handheld video. Finally, for dynamic scenes, commonly used robustification techniques like RANSAC require large numbers of iterations, and become prohibitively slow. We introduce a novel generalization of the Hough transform on SO(3) to efficiently and robustly find the camera rotation most compatible with optical flow. Among comparably fast methods, ours reduces error by almost 50\% over the next best, and is more accurate than any method, irrespective of speed. This represents a strong new performance point for crowded scenes, an important setting for computer vision. The code and the dataset are available at https://fabiendelattre.com/robust-rotation-estimation.

arxiv情報

著者 Fabien Delattre,David Dirnfeld,Phat Nguyen,Stephen Scarano,Michael J. Jones,Pedro Miraldo,Erik Learned-Miller
発行日 2023-09-15 17:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク