要約
地上ロボットのナビゲーションは、通常、ローカリゼーションとマッピング (SLAM) の後に動的に作成された地図上で従来の計画を行うか、機械学習 (ML) によって対処され、多くの場合、強化学習 (RL) または模倣学習によるエンドツーエンドのトレーニングを通じて行われます。
(イリノイ州)。
最近、モジュール設計が有望な結果を達成し、ML と古典的な計画を組み合わせたハイブリッド アルゴリズムが提案されています。
既存の方法では、手作りの機能を使用してこれらの組み合わせを実装していますが、ポリシーの補完的な性質や、シーン構造と計画パフォーマンスの間の複雑な規則性を十分に活用することができません。
私たちの研究は、ニューラル プランナーと古典的プランナーの長所と短所は、トレーニング データ、特に相互作用から学習できるいくつかの規則性に従っているという仮説に基づいています。
これは、訓練されたプランナーと古典的な計画の基礎となるマッピング アルゴリズムの両方が、シーンのセマンティクスに応じて失敗するケースがあり、この依存関係は学習可能であるという前提に基づいています。たとえば、特定の領域、オブジェクト、またはシーン構造は、
他のものよりも簡単に再構築できます。
我々は、古典的プランナーとニューラルプランナーを動的に切り替える高レベルプランナーで構成される階層的手法を提案します。
すべてのニューラル ポリシーをシミュレーションで完全にトレーニングし、シミュレーションと LoCoBot ロボットを使用した実際の実験の両方でメソッドを評価し、特に実環境でパフォーマンスの大幅な向上を示しました。
また、高レベルのプランナーによって利用されるデータの規則性の性質についても定性的に推測します。
要約(オリジナル)
Navigation of terrestrial robots is typically addressed either with localization and mapping (SLAM) followed by classical planning on the dynamically created maps, or by machine learning (ML), often through end-to-end training with reinforcement learning (RL) or imitation learning (IL). Recently, modular designs have achieved promising results, and hybrid algorithms that combine ML with classical planning have been proposed. Existing methods implement these combinations with hand-crafted functions, which cannot fully exploit the complementary nature of the policies and the complex regularities between scene structure and planning performance. Our work builds on the hypothesis that the strengths and weaknesses of neural planners and classical planners follow some regularities, which can be learned from training data, in particular from interactions. This is grounded on the assumption that, both, trained planners and the mapping algorithms underlying classical planning are subject to failure cases depending on the semantics of the scene and that this dependence is learnable: for instance, certain areas, objects or scene structures can be reconstructed easier than others. We propose a hierarchical method composed of a high-level planner dynamically switching between a classical and a neural planner. We fully train all neural policies in simulation and evaluate the method in both simulation and real experiments with a LoCoBot robot, showing significant gains in performance, in particular in the real environment. We also qualitatively conjecture on the nature of data regularities exploited by the high-level planner.
arxiv情報
著者 | Sombit Dey,Assem Sadek,Gianluca Monaci,Boris Chidlovskii,Christian Wolf |
発行日 | 2023-07-31 14:29:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google