要約
カメラの再位置推定タスクのための深層学習が進歩しているにもかかわらず、トレーニング プロセスに必要なグラウンド トゥルースのポーズ ラベルを取得するのは依然としてコストのかかる作業です。
現在の弱教師メソッドは軽量ラベル生成には優れていますが、ビューがまばらなシナリオではパフォーマンスが著しく低下します。
この課題に対応するために、WSCLoc を導入します。これは、さまざまな深層学習ベースの再局所化モデルにカスタマイズして、監視が弱く、ビューが希薄な条件下でのパフォーマンスを向上させることができるシステムです。
これは 2 つの段階で実現されます。
初期段階では、WSCLoc は WFT-NeRF と呼ばれる多層パーセプトロンベースの構造を採用して、画像再構成の品質と初期姿勢情報を共同最適化します。
安定した学習プロセスを確保するために、入力として時間情報を組み込みます。
さらに、SE(3) を最適化する代わりに、$\mathfrak{sim}(3)$ 最適化を選択して、スケール制約を明示的に強制します。
第 2 段階では、事前トレーニングされた WFT-NeRF と WFT-Pose を共同最適化します。
この最適化は、タイム エンコーディング ベースのランダム ビュー合成によって強化され、姿勢、深度、および RGB 情報を考慮したフレーム間の幾何学的制約によって監視されます。
私たちは、屋外と屋内の 2 つの公開データセットでアプローチを検証します。
私たちの実験結果は、私たちの弱教師再位置推定ソリューションが、スパースビューシナリオで最先端のカメラ再位置推定方法に匹敵する優れた姿勢推定精度を達成することを示しています。
コードを公開します。
要約(オリジナル)
Despite the advancements in deep learning for camera relocalization tasks, obtaining ground truth pose labels required for the training process remains a costly endeavor. While current weakly supervised methods excel in lightweight label generation, their performance notably declines in scenarios with sparse views. In response to this challenge, we introduce WSCLoc, a system capable of being customized to various deep learning-based relocalization models to enhance their performance under weakly-supervised and sparse view conditions. This is realized with two stages. In the initial stage, WSCLoc employs a multilayer perceptron-based structure called WFT-NeRF to co-optimize image reconstruction quality and initial pose information. To ensure a stable learning process, we incorporate temporal information as input. Furthermore, instead of optimizing SE(3), we opt for $\mathfrak{sim}(3)$ optimization to explicitly enforce a scale constraint. In the second stage, we co-optimize the pre-trained WFT-NeRF and WFT-Pose. This optimization is enhanced by Time-Encoding based Random View Synthesis and supervised by inter-frame geometric constraints that consider pose, depth, and RGB information. We validate our approaches on two publicly available datasets, one outdoor and one indoor. Our experimental results demonstrate that our weakly-supervised relocalization solutions achieve superior pose estimation accuracy in sparse-view scenarios, comparable to state-of-the-art camera relocalization methods. We will make our code publicly available.
arxiv情報
著者 | Jialu Wang,Kaichen Zhou,Andrew Markham,Niki Trigoni |
発行日 | 2024-03-22 15:15:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google