要約
地面と空中の景色の混合物から撮影された画像の幾何学的再構成のタスクを探ります。
現在の最先端の学習ベースのアプローチは、航空機の画像ペア間の極端な視点のバリエーションを処理できません。
私たちの仮説は、トレーニングのための高品質の共同登録された航空機データセットの欠如がこの失敗の主な理由であるということです。
このようなデータは、スケーラブルな方法で再構築することが困難であるため、正確に組み立てることが困難です。
この課題を克服するために、3D都市全体のメッシュ(Google Earthなど)からの擬似合成レンダリングを組み合わせたスケーラブルなフレームワークを、実際の地上レベルのクラウドソース画像(例:Megadepth)と提案します。
擬似合成データは広範囲の航空視点をシミュレートしますが、実際のクラウドソースの画像は、メッシュベースのレンダリングが十分な詳細を欠いている地上レベルの画像の視覚的忠実度を改善し、実際の画像と擬似合成レンダリングの間のドメインギャップを効果的に埋めるのに役立ちます。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、現実世界のゼロショット航空機タスクの大幅な改善を実現します。
たとえば、ベースラインDust3Rがカメラ回転エラーの5度以内に空中地のペアの5%未満を局在化し、データを微調整すると正確性が56%近くまで上昇し、大きな視点の変化を処理する大きな障害点に対処することが観察されます。
カメラの推定やシーンの再構築を超えて、データセットは、挑戦的な航空地面シナリオにおけるNow-view合成などの下流タスクのパフォーマンスを向上させ、実際のアプリケーションでのアプローチの実用的な価値を実証します。
要約(オリジナル)
We explore the task of geometric reconstruction of images captured from a mixture of ground and aerial views. Current state-of-the-art learning-based approaches fail to handle the extreme viewpoint variation between aerial-ground image pairs. Our hypothesis is that the lack of high-quality, co-registered aerial-ground datasets for training is a key reason for this failure. Such data is difficult to assemble precisely because it is difficult to reconstruct in a scalable way. To overcome this challenge, we propose a scalable framework combining pseudo-synthetic renderings from 3D city-wide meshes (e.g., Google Earth) with real, ground-level crowd-sourced images (e.g., MegaDepth). The pseudo-synthetic data simulates a wide range of aerial viewpoints, while the real, crowd-sourced images help improve visual fidelity for ground-level images where mesh-based renderings lack sufficient detail, effectively bridging the domain gap between real images and pseudo-synthetic renderings. Using this hybrid dataset, we fine-tune several state-of-the-art algorithms and achieve significant improvements on real-world, zero-shot aerial-ground tasks. For example, we observe that baseline DUSt3R localizes fewer than 5% of aerial-ground pairs within 5 degrees of camera rotation error, while fine-tuning with our data raises accuracy to nearly 56%, addressing a major failure point in handling large viewpoint changes. Beyond camera estimation and scene reconstruction, our dataset also improves performance on downstream tasks like novel-view synthesis in challenging aerial-ground scenarios, demonstrating the practical value of our approach in real-world applications.
arxiv情報
著者 | Khiem Vuong,Anurag Ghosh,Deva Ramanan,Srinivasa Narasimhan,Shubham Tulsiani |
発行日 | 2025-04-17 17:57:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google