Zero-Shot Monocular Scene Flow Estimation in the Wild

要約

大規模なモデルは、深度推定などの多くの低レベル視覚タスクについてデータセット全体にわたる一般化を示していますが、シーン フローに対してそのような一般的なモデルは存在しません。
シーン フローは幅広い用途に使用できる可能性がありますが、現在の予測モデルが十分に一般化されていないため、実際には使用されていません。
私たちは 3 つの主要な課題を特定し、それぞれに対する解決策を提案します。まず、正確な予測のためにジオメトリとモーションを共同推定する方法を作成します。
次に、さまざまな合成シーンにわたって 100 万個の注釈付きトレーニング サンプルを提供するデータ レシピを使用して、シーン フロー データの不足を軽減します。
第三に、シーン フロー予測のためのさまざまなパラメータ化を評価し、自然で効果的なパラメータ化を採用します。
私たちの結果として得られたモデルは、3D エンドポイント エラーの点で、既存の手法だけでなく大規模モデルに基づいて構築されたベースラインよりも優れており、DAVIS から何気なくキャプチャされたビデオや RoboTAP からのロボット操作シーンに対するゼロショットの一般化を示しています。
全体として、私たちのアプローチにより、現場でのシーン フロー予測がより実用的になります。

要約(オリジナル)

Large models have shown generalization across datasets for many low-level vision tasks, like depth estimation, but no such general models exist for scene flow. Even though scene flow has wide potential use, it is not used in practice because current predictive models do not generalize well. We identify three key challenges and propose solutions for each.First, we create a method that jointly estimates geometry and motion for accurate prediction. Second, we alleviate scene flow data scarcity with a data recipe that affords us 1M annotated training samples across diverse synthetic scenes. Third, we evaluate different parameterizations for scene flow prediction and adopt a natural and effective parameterization. Our resulting model outperforms existing methods as well as baselines built on large-scale models in terms of 3D end-point error, and shows zero-shot generalization to the casually captured videos from DAVIS and the robotic manipulation scenes from RoboTAP. Overall, our approach makes scene flow prediction more practical in-the-wild.

arxiv情報

著者 Yiqing Liang,Abhishek Badki,Hang Su,James Tompkin,Orazio Gallo
発行日 2025-01-17 18:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク