要約
大規模な3Dシーン内のテキスト記述をローカライズすることは、都市内の全ての信号機を識別するような、固有の曖昧性を伴う。この問題に対処するため、我々は、テキスト記述に条件付けされたカメラポーズの分布を生成する手法を導入し、広範に定義された概念に対するロバストな推論を容易にする。 本アプローチでは、事前に訓練されたテキストエンコーダから得られる条件信号により、ノイズの多い6DoFカメラポーズをもっともらしい位置に向けて絞り込むために、拡散ベースのアーキテクチャを採用する。事前に学習された視覚言語モデルCLIPと統合することで、テキスト記述とポーズ分布の間の強い結びつきを確立する。ローカライゼーションの精度の向上は、視覚的推論によりずれたサンプルを修正する3Dガウススプラッティングを用いて候補ポーズをレンダリングすることにより達成される。 我々は、5つの大規模なデータセットにおいて、標準的な分布推定手法と比較することで、本手法の優位性を検証し、一貫した性能を実証する。コード、データセット、および詳細情報は、私たちのプロジェクトページで公開される予定です。
要約(オリジナル)
Localizing textual descriptions within large-scale 3D scenes presents inherent ambiguities, such as identifying all traffic lights in a city. Addressing this, we introduce a method to generate distributions of camera poses conditioned on textual descriptions, facilitating robust reasoning for broadly defined concepts. Our approach employs a diffusion-based architecture to refine noisy 6DoF camera poses towards plausible locations, with conditional signals derived from pre-trained text encoders. Integration with the pretrained Vision-Language Model, CLIP, establishes a strong linkage between text descriptions and pose distributions. Enhancement of localization accuracy is achieved by rendering candidate poses using 3D Gaussian splatting, which corrects misaligned samples through visual reasoning. We validate our method’s superiority by comparing it against standard distribution estimation methods across five large-scale datasets, demonstrating consistent outperformance. Code, datasets and more information will be publicly available at our project page.
arxiv情報
著者 | Qi Ma,Runyi Yang,Bin Ren,Nicu Sebe,Ender Konukoglu,Luc Van Gool,Danda Pani Paudel |
発行日 | 2025-02-03 10:49:47+00:00 |
arxivサイト | arxiv_id(pdf) |