要約
視覚臭トメトリシステムの最近の進歩により、自律的なナビゲーションが改善されました。
ただし、密集した葉、可変照明、繰り返しのテクスチャのような森林のような複雑な環境では、課題が続きます。
これらの課題に対処するために、Forestglueを導入し、さまざまなセンシングモダリティ用に最適化された4つの構成(Grayscale、RGB、RGB -D、およびStereo -Vision)を介してスーパーポイント機能検出器を強化します。
フィーチャーマッチングには、合成森林データで再訓練されたLightglueまたはSuperglueを使用します。
ForestGlueは、ベースラインモデルに匹敵するポーズ推定精度を達成しますが、10 {\ deg}のしきい値で0.745のLo -Ransac AUCスコアに達するには、ベースラインの2048のわずか25% – の512キーポイントのみが必要です。
必要なキーポイントの4分の1しかないため、ForestGlueは計算オーバーヘッドを大幅に減らし、動的な森林環境での有効性を実証し、リソース制約のあるプラットフォームでのリアルタイムの展開に適しています。
Forestglueと変圧器ベースのポーズ推定モデルと組み合わせることにより、Forestvoを提案します。ForfortVoは、フレーム間で一致した2Dピクセル座標を使用して相対的なカメラポーズを推定します。
Tartanair Forestシーケンスに挑戦すると、Forestvoは1.09 mの平均相対ポーズ誤差(RPE)と2.33%のKitti_Scoreを達成し、ダイナミックシーンでDSOなどのダイレクトベースの方法を40%上回ります。
トレーニングにデータセットの10%しか使用していませんが、ForestvoはTartanvoで競争力のあるパフォーマンスを維持しながら、大幅に軽いモデルです。
この作業は、森林環境での視覚臭トメトリに特化したエンドツーエンドの深い学習パイプラインを確立し、森林固有のトレーニングデータを活用して、特徴の対応とポーズ推定を最適化し、自律ナビゲーションシステムの精度と堅牢性を高めます。
要約(オリジナル)
Recent advancements in visual odometry systems have improved autonomous navigation; however, challenges persist in complex environments like forests, where dense foliage, variable lighting, and repetitive textures compromise feature correspondence accuracy. To address these challenges, we introduce ForestGlue, enhancing the SuperPoint feature detector through four configurations – grayscale, RGB, RGB-D, and stereo-vision – optimised for various sensing modalities. For feature matching, we employ LightGlue or SuperGlue, retrained with synthetic forest data. ForestGlue achieves comparable pose estimation accuracy to baseline models but requires only 512 keypoints – just 25% of the baseline’s 2048 – to reach an LO-RANSAC AUC score of 0.745 at a 10{\deg} threshold. With only a quarter of keypoints needed, ForestGlue significantly reduces computational overhead, demonstrating effectiveness in dynamic forest environments, and making it suitable for real-time deployment on resource-constrained platforms. By combining ForestGlue with a transformer-based pose estimation model, we propose ForestVO, which estimates relative camera poses using matched 2D pixel coordinates between frames. On challenging TartanAir forest sequences, ForestVO achieves an average relative pose error (RPE) of 1.09 m and a kitti_score of 2.33%, outperforming direct-based methods like DSO by 40% in dynamic scenes. Despite using only 10% of the dataset for training, ForestVO maintains competitive performance with TartanVO while being a significantly lighter model. This work establishes an end-to-end deep learning pipeline specifically tailored for visual odometry in forested environments, leveraging forest-specific training data to optimise feature correspondence and pose estimation, thereby enhancing the accuracy and robustness of autonomous navigation systems.
arxiv情報
著者 | Thomas Pritchard,Saifullah Ijaz,Ronald Clark,Basaran Bahadir Kocer |
発行日 | 2025-04-02 00:20:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google