iPlanner: Imperative Path Planning

要約

経路計画の問題は何年も研究されてきました。
認識、マッピング、パス検索などの従来の計画パイプラインでは、モジュール間の遅延や複合エラーが発生する可能性があります。
最近の研究では、高い計画効率を達成する上でのエンドツーエンドの学習方法の有効性が実証されていますが、これらの方法は、異なる環境を処理する際の古典的なアプローチの一般化能力に匹敵するのに苦労することがよくあります。
さらに、ポリシーのエンドツーエンドのトレーニングでは、多くの場合、収束に達するまでに大量のラベル付きデータまたはトレーニングの反復が必要になります。
この論文では、新しい命令型学習 (IL) アプローチを紹介します。
このアプローチでは、微分可能なコスト マップを活用して、ポリシーのトレーニング中に暗黙的な監視を提供し、デモンストレーションやラベル付けされた軌道の必要性を排除します。
さらに、ポリシー トレーニングでは、ネットワーク更新とメトリックベースの軌道最適化を組み合わせたバイレベル最適化 (BLO) プロセスを採用し、単一の深度測定に基づいて、目標に向かうスムーズで衝突のないパスを生成します。
提案された方法では、予測された軌道のタスクレベルのコストをすべてのコンポーネントに逆伝播して、直接勾配降下法を通じてネットワークを更新できます。
私たちの実験では、この方法は古典的なアプローチよりも約 4 倍高速な計画と、ローカライゼーション ノイズに対する堅牢性を実証しました。
さらに、IL アプローチにより、プランナーはさまざまな目に見えない環境に一般化できるため、ベースラインの学習方法と比較して SPL パフォーマンスが全体で 26 ~ 87% 向上します。

要約(オリジナル)

The problem of path planning has been studied for years. Classic planning pipelines, including perception, mapping, and path searching, can result in latency and compounding errors between modules. While recent studies have demonstrated the effectiveness of end-to-end learning methods in achieving high planning efficiency, these methods often struggle to match the generalization abilities of classic approaches in handling different environments. Moreover, end-to-end training of policies often requires a large number of labeled data or training iterations to reach convergence. In this paper, we present a novel Imperative Learning (IL) approach. This approach leverages a differentiable cost map to provide implicit supervision during policy training, eliminating the need for demonstrations or labeled trajectories. Furthermore, the policy training adopts a Bi-Level Optimization (BLO) process, which combines network update and metric-based trajectory optimization, to generate a smooth and collision-free path toward the goal based on a single depth measurement. The proposed method allows task-level costs of predicted trajectories to be backpropagated through all components to update the network through direct gradient descent. In our experiments, the method demonstrates around 4x faster planning than the classic approach and robustness against localization noise. Additionally, the IL approach enables the planner to generalize to various unseen environments, resulting in an overall 26-87% improvement in SPL performance compared to baseline learning methods.

arxiv情報

著者 Fan Yang,Chen Wang,Cesar Cadena,Marco Hutter
発行日 2023-05-24 22:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク