要約
3Dの動きを知覚・理解することは、自動運転、ロボット、動作予測などの分野における中核技術です。
この論文では、一般化が容易なScaleFlow++と呼ばれる3D運動認識手法を提案します。
ScaleFlow++ は、わずか 1 組の RGB 画像を使用して、オプティカル フローとモーション イン デプス (MID) を確実に推定できます。
既存の手法のほとんどは、2 つの RGB フレームまたはオプティカル フローから MID を直接回帰するため、結果が不正確で不安定になります。
私たちの重要な洞察は、異なるスケールの画像のペア内のオブジェクトを照合することによって深い動きの手がかりを抽出するクロススケール マッチングです。
以前の方法とは異なり、ScaleFlow++ はオプティカル フローと MID 推定を統合アーキテクチャに統合し、特徴マッチングに基づいてオプティカル フローと MID をエンドツーエンドで推定します。
さらに、グローバル初期化ネットワーク、グローバル反復オプティマイザー、ハイブリッド トレーニング パイプラインなどのモジュールも提案し、グローバル モーション情報を統合し、反復回数を削減し、トレーニング中の過学習を防止しました。
KITTI では、ScaleFlow++ が最高の単眼シーン フロー推定パフォーマンスを達成し、SF-all を 6.21 から 5.79 に削減しました。
MID の評価は、RGBD ベースの手法をも上回ります。
さらに、ScaleFlow++ は、リジッド シーンと非リジッド シーンの両方で驚異的なゼロショット ジェネラライゼーション パフォーマンスを達成しました。
コードは \url{https://github.com/HanLingsgjk/CSCV} で入手できます。
要約(オリジナル)
Perceiving and understanding 3D motion is a core technology in fields such as autonomous driving, robots, and motion prediction. This paper proposes a 3D motion perception method called ScaleFlow++ that is easy to generalize. With just a pair of RGB images, ScaleFlow++ can robustly estimate optical flow and motion-in-depth (MID). Most existing methods directly regress MID from two RGB frames or optical flow, resulting in inaccurate and unstable results. Our key insight is cross-scale matching, which extracts deep motion clues by matching objects in pairs of images at different scales. Unlike previous methods, ScaleFlow++ integrates optical flow and MID estimation into a unified architecture, estimating optical flow and MID end-to-end based on feature matching. Moreover, we also proposed modules such as global initialization network, global iterative optimizer, and hybrid training pipeline to integrate global motion information, reduce the number of iterations, and prevent overfitting during training. On KITTI, ScaleFlow++ achieved the best monocular scene flow estimation performance, reducing SF-all from 6.21 to 5.79. The evaluation of MID even surpasses RGBD-based methods. In addition, ScaleFlow++ has achieved stunning zero-shot generalization performance in both rigid and nonrigid scenes. Code is available at \url{https://github.com/HanLingsgjk/CSCV}.
arxiv情報
著者 | Han Ling,Quansen Sun |
発行日 | 2024-10-16 14:16:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google