T-Graph: Enhancing Sparse-view Camera Pose Estimation by Pairwise Translation Graph

要約

異なる視点から撮影された限られた数の画像から6自由度(6-DoF)ポーズを推定することを目的としたスパースビューカメラポーズ推定は、リモートセンシングアプリケーションにおける基本的でありながら困難な問題である。既存の手法では、各視点のペア間の並進情報が見落とされることが多く、スパースビューのシナリオでは最適なパフォーマンスが得られない。この限界に対処するために、我々は、スパースビュー設定におけるカメラポーズ推定を強化するための、プラグアンドプレイの軽量モジュールであるT-graphを紹介する。T-graphは、ペア画像特徴を入力とし、それらを多層パーセプトロン(MLP)を通してマッピングする。そして、ノードはカメラを表し、エッジはそれらの並進関係をエンコードする、完全に連結された並進グラフを構築します。これは、効率性と使いやすさを維持しながら、元の予測と並行して追加ブランチとして既存のモデルにシームレスに統合することができる。さらに、異なるローカル座標系で定式化された2つのペアワイズ並進表現、relative-tとpair-tを導入する。relative-tが直感的な空間関係を捉えるのに対して、pair-tは回転を分離した代替表現を提供する。この2つの表現は、多様なアプリケーションシナリオへの適応性を高め、モジュールの頑健性をさらに向上させる。公開データセット(C03DとIMC PhotoTourism)を用いた2つの最新手法(RelPose++とForge)に対する広範な実験により、T-Graphの有効性と汎用性の両方が検証された。その結果、様々な測定基準において一貫した改善が見られ、特にカメラ中心精度は、2視点から8視点まで1%から6%改善した。

要約(オリジナル)

Sparse-view camera pose estimation, which aims to estimate the 6-Degree-of-Freedom (6-DoF) poses from a limited number of images captured from different viewpoints, is a fundamental yet challenging problem in remote sensing applications. Existing methods often overlook the translation information between each pair of viewpoints, leading to suboptimal performance in sparse-view scenarios. To address this limitation, we introduce T-Graph, a lightweight, plug-and-play module to enhance camera pose estimation in sparse-view settings. T-graph takes paired image features as input and maps them through a Multilayer Perceptron (MLP). It then constructs a fully connected translation graph, where nodes represent cameras and edges encode their translation relationships. It can be seamlessly integrated into existing models as an additional branch in parallel with the original prediction, maintaining efficiency and ease of use. Furthermore, we introduce two pairwise translation representations, relative-t and pair-t, formulated under different local coordinate systems. While relative-t captures intuitive spatial relationships, pair-t offers a rotation-disentangled alternative. The two representations contribute to enhanced adaptability across diverse application scenarios, further improving our module’s robustness. Extensive experiments on two state-of-the-art methods (RelPose++ and Forge) using public datasets (C03D and IMC PhotoTourism) validate both the effectiveness and generalizability of T-Graph. The results demonstrate consistent improvements across various metrics, notably camera center accuracy, which improves by 1% to 6% from 2 to 8 viewpoints.

arxiv情報

著者 Qingyu Xian,Weiqin Jiao,Hao Cheng,Berend Jan van der Zwaag,Yanqiu Huang
発行日 2025-05-02 11:50:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク