VioLA: Aligning Videos to 2D LiDAR Scans


私たちは、環境の局所的な部分をキャプチャしたビデオを環境全体の 2D LiDAR スキャンに合わせる問題を研究します。
再構成エラーまたはカメラ スキャンの部分的なカバレッジにより、再構成されたセマンティック マップには登録に十分な情報が含まれていない可能性があります。
この問題に対処するために、VioLA は、ポーズの登録をサポートするために、幾何学的に一貫した方法で不足しているシーンのコンテンツを埋めるために、深度補完モデルと組み合わせた事前トレーニング済みのテキストから画像への修復モデルを利用します。
私たちは、2 つの現実世界の RGB-D ベンチマークと、大規模なオフィス シーンの自己キャプチャ データセットで VioLA を評価しました。
特に、私たちが提案するシーン補完モジュールは、ポーズ登録パフォーマンスを最大 20% 向上させます。


We study the problem of aligning a video that captures a local portion of an environment to the 2D LiDAR scan of the entire environment. We introduce a method (VioLA) that starts with building a semantic map of the local scene from the image sequence, then extracts points at a fixed height for registering to the LiDAR map. Due to reconstruction errors or partial coverage of the camera scan, the reconstructed semantic map may not contain sufficient information for registration. To address this problem, VioLA makes use of a pre-trained text-to-image inpainting model paired with a depth completion model for filling in the missing scene content in a geometrically consistent fashion to support pose registration. We evaluate VioLA on two real-world RGB-D benchmarks, as well as a self-captured dataset of a large office scene. Notably, our proposed scene completion module improves the pose registration performance by up to 20%.


著者 Jun-Jee Chao,Selim Engin,Nikhil Chavan-Dafle,Bhoram Lee,Volkan Isler
発行日 2023-11-08 16:01:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク