CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction

要約

現実のロボットナビゲーションには、単に目的地に到達するだけではありません。
シナリオ固有の目標に取り組みながら、動きを最適化する必要があります。
人間がこれらの目標を表現する直観的な方法は、口頭での命令や大まかなスケッチなどの抽象的な手がかりを使用することです。
このような人間によるガイダンスは、詳細が不足していたり​​、うるさかったりする場合があります。
それにもかかわらず、私たちはロボットが意図したとおりに移動することを期待しています。
ロボットが人間の期待に沿ってこれらの抽象的な命令を解釈して実行するには、基本的なナビゲーション概念について人間と共通の理解を共有する必要があります。
この目的を達成するために、常識を意識したナビゲーションのための視覚的指示と言語的指示を組み合わせた新しいフレームワークである CANVAS を紹介します。
その成功は、ロボットが人間のナビゲーション行動から学習できるようにする模倣学習によって推進されています。
私たちは、人間が注釈を付けたナビゲーション結果を含む包括的なデータセットである COMMAND を紹介します。このデータセットは 48 時間、219 km を超え、模擬環境で常識を認識したナビゲーション システムをトレーニングするように設計されています。
私たちの実験では、CANVAS がすべての環境において強力なルールベースのシステムである ROS NavStack よりも優れたパフォーマンスを示し、ノイズの多い命令でも優れたパフォーマンスを示していることがわかりました。
特に、果樹園環境では、ROS NavStack が合計成功率 0% を記録しているのに対し、CANVAS は合計成功率 67% を達成しています。
CANVAS は、目に見えない環境であっても、人間のデモンストレーションや常識的な制約とも密接に連携します。
さらに、CANVAS の実世界の展開では、総成功率 69% という驚異的な Sim2Real 転送が示されており、実世界のアプリケーションのシミュレートされた環境で人間のデモンストレーションから学習できる可能性が強調されています。

要約(オリジナル)

Real-life robot navigation involves more than just reaching a destination; it requires optimizing movements while addressing scenario-specific goals. An intuitive way for humans to express these goals is through abstract cues like verbal commands or rough sketches. Such human guidance may lack details or be noisy. Nonetheless, we expect robots to navigate as intended. For robots to interpret and execute these abstract instructions in line with human expectations, they must share a common understanding of basic navigation concepts with humans. To this end, we introduce CANVAS, a novel framework that combines visual and linguistic instructions for commonsense-aware navigation. Its success is driven by imitation learning, enabling the robot to learn from human navigation behavior. We present COMMAND, a comprehensive dataset with human-annotated navigation results, spanning over 48 hours and 219 km, designed to train commonsense-aware navigation systems in simulated environments. Our experiments show that CANVAS outperforms the strong rule-based system ROS NavStack across all environments, demonstrating superior performance with noisy instructions. Notably, in the orchard environment, where ROS NavStack records a 0% total success rate, CANVAS achieves a total success rate of 67%. CANVAS also closely aligns with human demonstrations and commonsense constraints, even in unseen environments. Furthermore, real-world deployment of CANVAS showcases impressive Sim2Real transfer with a total success rate of 69%, highlighting the potential of learning from human demonstrations in simulated environments for real-world applications.

arxiv情報

著者 Suhwan Choi,Yongjun Cho,Minchan Kim,Jaeyoon Jung,Myunchul Joe,Yubeen Park,Minseo Kim,Sungwoong Kim,Sungjae Lee,Hwiseong Park,Jiwan Chung,Youngjae Yu
発行日 2024-10-02 06:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Robust Imitation Learning for Mobile Manipulator Focusing on Task-Related Viewpoints and Regions

要約

移動マニピュレータの視覚運動ポリシーを視覚観察の観点から一般化する方法を研究します。
モバイル マニピュレータは、単一の視点のみを使用する場合には自身の本体によるオクルージョンが発生しやすく、さまざまな状況で展開される場合にはドメインが大きく変化する傾向があります。
しかし、著者の知る限り、オクルージョンとドメインシフトを同時に解決し、堅牢なポリシーを提案できた研究はありません。
本稿では、複数の視点を観察する際に、タスク関連の視点とその空間領域に焦点を当てる、モバイルマニピュレータのためのロバストな模倣学習手法を提案します。
複数視点ポリシーには、拡張データセットで学習される注意メカニズムが含まれており、オクルージョンやドメイン シフトに対する最適な視点と堅牢な視覚的埋め込みを実現します。
さまざまなタスクおよび環境に対する結果を以前の研究の結果と比較すると、提案した方法により成功率が最大 29.3 ポイント向上することが明らかになりました。
また、私たちが提案した方法を使用したアブレーション研究も行っています。
複数の視点データセットからタスク関連の視点を学習すると、独自に定義された視点を使用する場合よりもオクルージョンに対する堅牢性が向上します。
タスク関連領域に焦点を当てることで、ドメイン移行に対する成功率が最大 33.3 ポイント向上します。

要約(オリジナル)

We study how to generalize the visuomotor policy of a mobile manipulator from the perspective of visual observations. The mobile manipulator is prone to occlusion owing to its own body when only a single viewpoint is employed and a significant domain shift when deployed in diverse situations. However, to the best of the authors’ knowledge, no study has been able to solve occlusion and domain shift simultaneously and propose a robust policy. In this paper, we propose a robust imitation learning method for mobile manipulators that focuses on task-related viewpoints and their spatial regions when observing multiple viewpoints. The multiple viewpoint policy includes attention mechanism, which is learned with an augmented dataset, and brings optimal viewpoints and robust visual embedding against occlusion and domain shift. Comparison of our results for different tasks and environments with those of previous studies revealed that our proposed method improves the success rate by up to 29.3 points. We also conduct ablation studies using our proposed method. Learning task-related viewpoints from the multiple viewpoints dataset increases robustness to occlusion than using a uniquely defined viewpoint. Focusing on task-related regions contributes to up to a 33.3-point improvement in the success rate against domain shift.

arxiv情報

著者 Yutaro Ishida,Yuki Noguchi,Takayuki Kanai,Kazuhiro Shintani,Hiroshi Bito
発行日 2024-10-02 07:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Finetuning Pre-trained Model with Limited Data for LiDAR-based 3D Object Detection by Bridging Domain Gaps

要約

LiDAR ベースの 3D 物体検出器は、自律走行車や移動ロボットなどのさまざまなアプリケーションで主に利用されています。
ただし、LiDAR ベースの検出器は、さまざまなセンサー構成 (センサーの種類、空間解像度、FOV など) や位置のシフトを伴うターゲット ドメインにうまく適応できないことがよくあります。
このようなギャップを減らすには、新しいセットアップでデータセットを収集して注釈を付けることが一般に必要ですが、多くの場合、費用と時間がかかります。
最近の研究では、ラベルのない大規模な LiDAR フレームを使用して、事前トレーニングされたバックボーンを自己教師ありの方法で学習できることが示唆されています。
ただし、表現力豊かな表現にもかかわらず、ターゲット ドメインからの大量のデータがなければうまく一般化することは依然として困難です。
そこで、限られたターゲット データ (約 100 個の LiDAR フレーム) で事前トレーニングされたモデルを適応させ、その表現力を維持し、過剰適合を防ぐ、ドメイン適応型蒸留チューニング (DADT) と呼ばれる新しい方法を提案します。
具体的には、正則化機能を使用して、教師と生徒のアーキテクチャにおける事前トレーニングされたモデルと微調整されたモデルの間でオブジェクト レベルとコンテキスト レベルの表現を調整します。
Waymo Open データセットや KITTI などのベンチマークを使用した実験により、私たちの方法が事前トレーニングされたモデルを効果的に微調整し、精度が大幅に向上することが確認されました。

要約(オリジナル)

LiDAR-based 3D object detectors have been largely utilized in various applications, including autonomous vehicles or mobile robots. However, LiDAR-based detectors often fail to adapt well to target domains with different sensor configurations (e.g., types of sensors, spatial resolution, or FOVs) and location shifts. Collecting and annotating datasets in a new setup is commonly required to reduce such gaps, but it is often expensive and time-consuming. Recent studies suggest that pre-trained backbones can be learned in a self-supervised manner with large-scale unlabeled LiDAR frames. However, despite their expressive representations, they remain challenging to generalize well without substantial amounts of data from the target domain. Thus, we propose a novel method, called Domain Adaptive Distill-Tuning (DADT), to adapt a pre-trained model with limited target data (approximately 100 LiDAR frames), retaining its representation power and preventing it from overfitting. Specifically, we use regularizers to align object-level and context-level representations between the pre-trained and finetuned models in a teacher-student architecture. Our experiments with driving benchmarks, i.e., Waymo Open dataset and KITTI, confirm that our method effectively finetunes a pre-trained model, achieving significant gains in accuracy.

arxiv情報

著者 Jiyun Jang,Mincheol Chang,Jongwon Park,Jinkyu Kim
発行日 2024-10-02 08:22:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

Narrowing your FOV with SOLiD: Spatially Organized and Lightweight Global Descriptor for FOV-constrained LiDAR Place Recognition

要約

実際のロボットナビゲーションでは、センサーフュージョンやセンサーマウントなどのさまざまな要因により、FOVが制限される状況によく遭遇します。
ただし、FOV が制限されているため、説明の生成が中断され、場所の認識に悪影響が生じます。
したがって、限られた視野での LiDAR ベースの場所認識を使用して、一貫したマップで蓄積されたドリフト誤差を修正することに苦労しています。
したがって、この論文では、狭いFOVシナリオを処理するための堅牢なLiDARベースの場所認識方法を提案します。
提案された方法は、場所を表すために、距離 – 仰角ビンと方位角 – 仰角ビンに基づいて空間構成を確立します。
さらに、垂直方向の情報に基づいて再重み付けを行うことで、堅牢な場所の記述を実現します。
これらの表現に基づいて、私たちの方法は回転の変化に対処し、最初の機首方位を決定することを可能にします。
さらに、ロボットの搭載自律性を実現する軽量かつ高速なアプローチを設計しました。
厳密な検証のために、提案された方法は、さまざまな LiDAR 場所認識シナリオ (つまり、単一セッション、マルチセッション、およびマルチロボット シナリオ) にわたってテストされました。
私たちの知る限り、限られた視野に対処する最初の方法を報告します。
場所の説明とSLAMコードが公開されます。
また、記述子の補足資料は \texttt{\url{https://sites.google.com/view/lidar-solid}} から入手できます。

要約(オリジナル)

We often encounter limited FOV situations due to various factors such as sensor fusion or sensor mount in real-world robot navigation. However, the limited FOV interrupts the generation of descriptions and impacts place recognition adversely. Therefore, we suffer from correcting accumulated drift errors in a consistent map using LiDAR-based place recognition with limited FOV. Thus, in this paper, we propose a robust LiDAR-based place recognition method for handling narrow FOV scenarios. The proposed method establishes spatial organization based on the range-elevation bin and azimuth-elevation bin to represent places. In addition, we achieve a robust place description through reweighting based on vertical direction information. Based on these representations, our method enables addressing rotational changes and determining the initial heading. Additionally, we designed a lightweight and fast approach for the robot’s onboard autonomy. For rigorous validation, the proposed method was tested across various LiDAR place recognition scenarios (i.e., single-session, multi-session, and multi-robot scenarios). To the best of our knowledge, we report the first method to cope with the restricted FOV. Our place description and SLAM codes will be released. Also, the supplementary materials of our descriptor are available at \texttt{\url{https://sites.google.com/view/lidar-solid}}.

arxiv情報

著者 Hogyun Kim,Jiwon Choi,Taehu Sim,Giseop Kim,Younggun Cho
発行日 2024-10-02 08:25:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

ReFeree: Radar-Based Lightweight and Robust Localization using Feature and Free space

要約

場所の認識は、長期にわたる堅牢な自律性を実現する上で重要な役割を果たします。
現実世界のロボットは、広範囲の気象条件 (曇り、大雨、雪など) に直面しており、本質的に可視電磁波内または近距離電磁波内で機能するほとんどのセンサー (カメラ、LiDAR) は悪天候の影響を受けやすいため、信頼性の高い位置特定が困難になります。

対照的に、レーダーは環境の変化や天候の影響を受けにくい長い電磁波により注目を集めています。
この研究では、レーダーベースの軽量で堅牢な場所認識を提案します。
1次元のリング状記述を選択することで回転不変性と軽量化を実現し、自由空間と特徴量の逆のノイズ特性を利用して誤検出の影響を軽減することでロバスト性を実現します。
さらに、初期機首方位を推定できるため、オンボード コンピューティングを考慮したオドメトリと登録を組み合わせた SLAM パイプラインの構築に役立ちます。
提案された方法は、さまざまなシナリオ (つまり、単一セッション、複数セッション、さまざまな気象条件) にわたって厳密な検証のためにテストされました。
特に、OORD データセットなどの構造情報が欠如した極限環境の結果を通じて、記述子が信頼性の高い場所認識パフォーマンスを達成していることを検証します。

要約(オリジナル)

Place recognition plays an important role in achieving robust long-term autonomy. Real-world robots face a wide range of weather conditions (e.g. overcast, heavy rain, and snowing) and most sensors (i.e. camera, LiDAR) essentially functioning within or near-visible electromagnetic waves are sensitive to adverse weather conditions, making reliable localization difficult. In contrast, radar is gaining traction due to long electromagnetic waves, which are less affected by environmental changes and weather independence. In this work, we propose a radar-based lightweight and robust place recognition. We achieve rotational invariance and lightweight by selecting a one-dimensional ring-shaped description and robustness by mitigating the impact of false detection utilizing opposite noise characteristics between free space and feature. In addition, the initial heading can be estimated, which can assist in building a SLAM pipeline that combines odometry and registration, which takes into account onboard computing. The proposed method was tested for rigorous validation across various scenarios (i.e. single session, multi-session, and different weather conditions). In particular, we validate our descriptor achieving reliable place recognition performance through the results of extreme environments that lacked structural information such as an OORD dataset.

arxiv情報

著者 Hogyun Kim,Byunghee Choi,Euncheol Choi,Younggun Cho
発行日 2024-10-02 08:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Contact-Implicit Model Predictive Control: Controlling Diverse Quadruped Motions Without Pre-Planned Contact Modes or Trajectories

要約

この論文では、事前定義された接触モード シーケンスや足場位置を使用せずに、複数接触の動きをリアルタイムで発見するための接触暗黙的モデル予測制御 (MPC) フレームワークを紹介します。
このアプローチでは、接触陰的微分動的計画法 (DDP) フレームワークを利用し、ハード接触モデルと線形相補性制約を結合します。
我々は、さまざまな接触モードの探索をさらに進めるために、緩和された相補性制約に基づいた接触インパルスの解析的勾配を提案します。
ハードコンタクトモデルベースのシミュレーションと滑らかな勾配による探索方向の計算を活用することで、私たちの方法論は動的に実現可能な状態軌道、制御入力、接触力を特定し、同時に新しい接触モードシーケンスを明らかにします。
ただし、接触モードの範囲が広がったからといって、必ずしも現実世界への適用性が保証されるわけではありません。
これを認識して、私たちは足の軌道を導き、歩行パターンを作成するために微分可能なコスト項を実装しました。
さらに、MPC 設定における不安定な初期ロールアウトという課題に対処するために、DDP の複数撮影バリアントを採用しています。
提案されたフレームワークの有効性は、重さ 45 kg の HOUND 四足歩行ロボットを使用したシミュレーションと実世界のデモンストレーションを通じて検証され、シミュレーションでさまざまなタスクを実行し、前方速歩や前脚立ち上げ動作を含む実際の実験を紹介します。

要約(オリジナル)

This paper presents a contact-implicit model predictive control (MPC) framework for the real-time discovery of multi-contact motions, without predefined contact mode sequences or foothold positions. This approach utilizes the contact-implicit differential dynamic programming (DDP) framework, merging the hard contact model with a linear complementarity constraint. We propose the analytical gradient of the contact impulse based on relaxed complementarity constraints to further the exploration of a variety of contact modes. By leveraging a hard contact model-based simulation and computation of search direction through a smooth gradient, our methodology identifies dynamically feasible state trajectories, control inputs, and contact forces while simultaneously unveiling new contact mode sequences. However, the broadened scope of contact modes does not always ensure real-world applicability. Recognizing this, we implemented differentiable cost terms to guide foot trajectories and make gait patterns. Furthermore, to address the challenge of unstable initial roll-outs in an MPC setting, we employ the multiple shooting variant of DDP. The efficacy of the proposed framework is validated through simulations and real-world demonstrations using a 45 kg HOUND quadruped robot, performing various tasks in simulation and showcasing actual experiments involving a forward trot and a front-leg rearing motion.

arxiv情報

著者 Gijeong Kim,Dongyun Kang,Joon-Ha Kim,Seungwoo Hong,Hae-Won Park
発行日 2024-10-02 08:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

High-Fidelity SLAM Using Gaussian Splatting with Rendering-Guided Densification and Regularized Optimization

要約

私たちは、計量的に正確な姿勢追跡と視覚的に現実的な再構成を提供する 3D ガウス スプラッティングに基づく高密度 RGBD SLAM システムを提案します。
この目的を達成するために、最初に、未観察領域をマッピングし、再観察された領域を洗練するためのレンダリング損失に基づくガウス密度化戦略を提案します。
2 番目に、追加の正則化パラメーターを導入して、連続マッピング問題における忘却の問題を軽減します。この問題では、パラメーターが最新のフレームに過剰適合し、前のフレームのレンダリング品質が低下する傾向があります。
マッピングと追跡は両方とも、微分可能な方法で再レンダリングの損失を最小限に抑えることにより、ガウス パラメーターを使用して実行されます。
最近のニューラルおよび同時に開発されたガウス スプラッティング RGBD SLAM ベースラインと比較して、私たちの方法は合成データセット レプリカで最先端の結果を達成し、現実世界のデータセット TUM で競合する結果を達成します。

要約(オリジナル)

We propose a dense RGBD SLAM system based on 3D Gaussian Splatting that provides metrically accurate pose tracking and visually realistic reconstruction. To this end, we first propose a Gaussian densification strategy based on the rendering loss to map unobserved areas and refine reobserved areas. Second, we introduce extra regularization parameters to alleviate the forgetting problem in the continuous mapping problem, where parameters tend to overfit the latest frame and result in decreasing rendering quality for previous frames. Both mapping and tracking are performed with Gaussian parameters by minimizing re-rendering loss in a differentiable way. Compared to recent neural and concurrently developed gaussian splatting RGBD SLAM baselines, our method achieves state-of-the-art results on the synthetic dataset Replica and competitive results on the real-world dataset TUM.

arxiv情報

著者 Shuo Sun,Malcolm Mielle,Achim J. Lilienthal,Martin Magnusson
発行日 2024-10-02 09:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy

要約

言語条件付きロボット ポリシーを新しいタスクに一般化することは、依然として大きな課題であり、適切なシミュレーション ベンチマークの欠如が妨げとなっています。
この論文では、視覚言語によるロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである GemBench を紹介することで、このギャップに対処します。
GemBench には、7 つの一般的なアクション プリミティブと 4 つのレベルの一般化が組み込まれており、新しい配置、剛体で多関節のオブジェクト、および長期にわたる複雑なタスクに及びます。
GemBench で最先端のアプローチを評価し、新しい手法も導入します。
私たちのアプローチ 3D-LOTUS は、言語に基づいた行動予測のために豊富な 3D 情報を活用します。
3D-LOTUS は、既知のタスクでは効率とパフォーマンスの両方で優れていますが、新しいタスクでは苦戦します。
これに対処するために、3D-LOTUS++ を紹介します。これは、3D-LOTUS の動作計画機能と、LLM のタスク計画機能および VLM の物体接地精度を統合するフレームワークです。
3D-LOTUS++ は、GemBench の新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定します。
ベンチマーク、コード、トレーニングされたモデルは \url{https://www.di.ens.fr/willow/research/gembench/} で入手できます。

要約(オリジナル)

Generalizing language-conditioned robotic policies to new tasks remains a significant challenge, hampered by the lack of suitable simulation benchmarks. In this paper, we address this gap by introducing GemBench, a novel benchmark to assess generalization capabilities of vision-language robotic manipulation policies. GemBench incorporates seven general action primitives and four levels of generalization, spanning novel placements, rigid and articulated objects, and complex long-horizon tasks. We evaluate state-of-the-art approaches on GemBench and also introduce a new method. Our approach 3D-LOTUS leverages rich 3D information for action prediction conditioned on language. While 3D-LOTUS excels in both efficiency and performance on seen tasks, it struggles with novel tasks. To address this, we present 3D-LOTUS++, a framework that integrates 3D-LOTUS’s motion planning capabilities with the task planning capabilities of LLMs and the object grounding accuracy of VLMs. 3D-LOTUS++ achieves state-of-the-art performance on novel tasks of GemBench, setting a new standard for generalization in robotic manipulation. The benchmark, codes and trained models are available at \url{https://www.di.ens.fr/willow/research/gembench/}.

arxiv情報

著者 Ricardo Garcia,Shizhe Chen,Cordelia Schmid
発行日 2024-10-02 09:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Toward Globally Optimal State Estimation Using Automatically Tightened Semidefinite Relaxations

要約

近年、ロボット工学における一般的な最適化問題の半明確な緩和は、グローバルに最適なソリューションを提供できるため、ますます注目を集めています。
多くの場合、厳密な緩和、つまり全体的な最適性を得るには、特定の手作りの冗長制約が必要であることが示されています。
これらの制約は配合に依存しており、通常は長時間にわたる手動プロセスを通じて特定されます。
その代わりに、本論文では、厳密性を得るのに十分な冗長な制約が存在する場合、それを見つけるための自動方法を提案します。
まず、特定の変数セットが厳密な定式化につながるかどうかを判断するための効率的な実現可能性チェックを提案します。
次に、この方法をより大きなサイズの問題に拡張する方法を示します。
プロセスのどの時点でも、冗長な制約を手動で見つける必要はありません。
シミュレーションおよび実際のデータセット上で、範囲ベースの位置特定とステレオベースの姿勢推定に対するアプローチの有効性を紹介します。
最後に、最近の文献で示されている半定値緩和を再現し、自動手法が常に、以前に考慮されていたものよりもタイト化に十分な小さな制約セットを見つけることを示します。

要約(オリジナル)

In recent years, semidefinite relaxations of common optimization problems in robotics have attracted growing attention due to their ability to provide globally optimal solutions. In many cases, it was shown that specific handcrafted redundant constraints are required to obtain tight relaxations and thus global optimality. These constraints are formulation-dependent and typically identified through a lengthy manual process. Instead, the present paper suggests an automatic method to find a set of sufficient redundant constraints to obtain tightness, if they exist. We first propose an efficient feasibility check to determine if a given set of variables can lead to a tight formulation. Secondly, we show how to scale the method to problems of bigger size. At no point of the process do we have to find redundant constraints manually. We showcase the effectiveness of the approach, in simulation and on real datasets, for range-based localization and stereo-based pose estimation. Finally, we reproduce semidefinite relaxations presented in recent literature and show that our automatic method always finds a smaller set of constraints sufficient for tightness than previously considered.

arxiv情報

著者 Frederike Dümbgen,Connor Holmes,Ben Agro,Timothy D. Barfoot
発行日 2024-10-02 09:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

3D Uncertain Implicit Surface Mapping using GMM and GP

要約

この研究では、ノイズが多く不完全な LiDAR スキャン データから導出された、不確実な表面を正確に表現する連続 3 次元 (3D) モデルを構築するという課題に取り組みます。
構造化された建築モデルにガウス プロセス (GP) とガウス混合モデル (GMM) を利用した以前の研究に基づいて、GMM 回帰と微分観測による GP が適用される、都市シーンの複雑な表面に合わせたより一般化されたアプローチを導入します。

階層型 GMM (HGMM) を使用して、GMM コンポーネントの数を最適化し、GMM トレーニングを高速化します。
HGMM から取得した事前マップを使用して、GP 推論に従って最終マップを改良します。
私たちのアプローチは、地理オブジェクトの暗黙的な表面をモデル化し、測定によって完全にはカバーされていない領域の推論を可能にします。
GMM と GP を統合すると、表面モデルとともに適切に校正された不確実性が得られ、精度と信頼性の両方が向上します。
提案された方法は、モバイルマッピングシステムによって収集された実際のデータに基づいて評価されます。
他の最先端の手法のマッピング精度と不確実性の定量化のパフォーマンスと比較して、提案された手法は、評価されたデータセットの RMSE が低く、対数尤度値が高く、計算コストが低くなります。

要約(オリジナル)

In this study, we address the challenge of constructing continuous three-dimensional (3D) models that accurately represent uncertain surfaces, derived from noisy and incomplete LiDAR scanning data. Building upon our prior work, which utilized the Gaussian Process (GP) and Gaussian Mixture Model (GMM) for structured building models, we introduce a more generalized approach tailored for complex surfaces in urban scenes, where GMM Regression and GP with derivative observations are applied. A Hierarchical GMM (HGMM) is employed to optimize the number of GMM components and speed up the GMM training. With the prior map obtained from HGMM, GP inference is followed for the refinement of the final map. Our approach models the implicit surface of the geo-object and enables the inference of the regions that are not completely covered by measurements. The integration of GMM and GP yields well-calibrated uncertainties alongside the surface model, enhancing both accuracy and reliability. The proposed method is evaluated on real data collected by a mobile mapping system. Compared to the performance in mapping accuracy and uncertainty quantification of other state-of-the-art methods, the proposed method achieves lower RMSEs, higher log-likelihood values and lower computational costs for the evaluated datasets.

arxiv情報

著者 Qianqian Zou,Monika Sester
発行日 2024-10-02 09:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする