要約
この論文では、3D-LiDAR テクノロジーとディープラーニングを使用した、園芸環境におけるロボットによる場所認識について説明します。
3 つの主要な貢献が提案されています。(i) PointNetPGAP と呼ばれる新しいモデル。これは、グローバル平均プーリング アグリゲータとペアワイズ機能インタラクション アグリゲータを組み合わせたものです。
(ii) セグメントレベル一貫性 (SLC) モデル。トレーニング中にのみ使用され、記述子を強化するためにコンテキスト固有のトレーニング信号でコントラスト損失を増強することを目的としています。
(iii) 果樹園とイチゴ農園からの配列を特徴とする HORTO-3DLM という名前の新しいデータセット。
新しい HORTO-3DLM データセットに対して行われた実験評価では、PointNetPGAP をシーケンス レベルおよびセグメント レベルで、OverlapTransformer、PointNetVLAD、LOGG3D などの最先端 (SOTA) モデルと比較します。
さらに、すべてのモデルは SLC を使用してトレーニングおよび評価されました。
相互検証評価プロトコルを通じて得られた実験結果は、既存の SOTA モデルと比較した PointNetPGAP の優位性を示しています。
PointNetPGAP は、PointNetVLAD (2 番目に優れたモデル) を上回る、上位 1 位の候補を取得する最良のモデルとして浮上します。
さらに、トレーニングの影響を SLC モデルと比較すると、5 つの評価モデルのうち 4 つでパフォーマンスが向上しました。これは、コンテキスト固有の信号をコントラスト損失に追加することで記述子の改善につながることを示しています。
要約(オリジナル)
This paper addresses robotic place recognition in horticultural environments using 3D-LiDAR technology and deep learning. Three main contributions are proposed: (i) a novel model called PointNetPGAP, which combines a global average pooling aggregator and a pairwise feature interaction aggregator; (ii) a Segment-Level Consistency (SLC) model, used only during training, with the goal of augmenting the contrastive loss with a context-specific training signal to enhance descriptors; and (iii) a novel dataset named HORTO-3DLM featuring sequences from orchards and strawberry plantations. The experimental evaluation, conducted on the new HORTO-3DLM dataset, compares PointNetPGAP at the sequence- and segment-level with state-of-the-art (SOTA) models, including OverlapTransformer, PointNetVLAD, and LOGG3D. Additionally, all models were trained and evaluated using the SLC. Empirical results obtained through a cross-validation evaluation protocol demonstrate the superiority of PointNetPGAP compared to existing SOTA models. PointNetPGAP emerges as the best model in retrieving the top-1 candidate, outperforming PointNetVLAD (the second-best model). Moreover, when comparing the impact of training with the SLC model, performance increased on four out of the five evaluated models, indicating that adding a context-specific signal to the contrastive loss leads to improved descriptors.
arxiv情報
著者 | T. Barros,L. Garrote,P. Conde,M. J. Coombes,C. Liu,C. Premebida,U. J. Nunes |
発行日 | 2024-05-29 12:24:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google