Sim-to-Real Transfer for Mobile Robots with Reinforcement Learning: from NVIDIA Isaac Sim to Gazebo and Real ROS 2 Robots

要約

深層強化学習 (RL) に基づくコントローラーにより、前例のない機敏性と器用な操作が実証され、脚式ロボットや人型ロボットに大きな影響を与えています。
NVIDIA Isaac Sim などの最新のツールとシミュレーション プラットフォームにより、このような進歩が可能になりました。
この記事では、移動ロボットがその環境と対話する最も基本的な方法の 1 つとして、ローカル プランニングと障害物回避における Isaac のアプリケーションを実証することに焦点を当てます。
固有受容に基づく RL 政策については広範な研究が行われていますが、この記事では、外受容へのあまり標準化されておらず、再現性の低いアプローチに焦点を当てています。
同時に、この記事は、エンドツーエンドのローカル ナビゲーション ポリシーの基本フレームワークと、そのようなシミュレーション環境でカスタム ロボットをトレーニングする方法を提供することを目的としています。
当社は、ロボット オペレーティング システム (ROS) のナビゲーション スタックである最先端の Nav2 を使用して、エンドツーエンドのポリシーをベンチマークします。
また、Isaac シミュレーターでトレーニングされたポリシーを現実世界のロボットにゼロショットで転送できることを実証することで、シミュレーションからリアルへの転送プロセスについても説明します。
これは、学習されたポリシーの一般化を示す、さまざまなシミュレートされたロボットを使用したテストによってさらに証明されています。
最後に、ベンチマークは Nav2 と同等のパフォーマンスを示し、カスタム ロボット プラットフォーム向けの最先端のエンドツーエンド ローカル プランナーの迅速な展開への扉を開きますが、重要なのは、状態とアクションの空間またはタスクを拡張することで可能性をさらに高めることです。
より複雑なミッションの定義。
全体として、この記事では、Isaac Sim トレーニング、Gazebo テスト、実際のロボットでのリアルタイム推論のための ROS 2 を使用したローカル パス プランニングと障害物回避のための RL ポリシーを展開する際に最も重要な手順と考慮すべき側面を紹介します。
コードは https://github.com/sahars93/RL-Navigation で入手できます。

要約(オリジナル)

Unprecedented agility and dexterous manipulation have been demonstrated with controllers based on deep reinforcement learning (RL), with a significant impact on legged and humanoid robots. Modern tooling and simulation platforms, such as NVIDIA Isaac Sim, have been enabling such advances. This article focuses on demonstrating the applications of Isaac in local planning and obstacle avoidance as one of the most fundamental ways in which a mobile robot interacts with its environments. Although there is extensive research on proprioception-based RL policies, the article highlights less standardized and reproducible approaches to exteroception. At the same time, the article aims to provide a base framework for end-to-end local navigation policies and how a custom robot can be trained in such simulation environment. We benchmark end-to-end policies with the state-of-the-art Nav2, navigation stack in Robot Operating System (ROS). We also cover the sim-to-real transfer process by demonstrating zero-shot transferability of policies trained in the Isaac simulator to real-world robots. This is further evidenced by the tests with different simulated robots, which show the generalization of the learned policy. Finally, the benchmarks demonstrate comparable performance to Nav2, opening the door to quick deployment of state-of-the-art end-to-end local planners for custom robot platforms, but importantly furthering the possibilities by expanding the state and action spaces or task definitions for more complex missions. Overall, with this article we introduce the most important steps, and aspects to consider, in deploying RL policies for local path planning and obstacle avoidance with Isaac Sim training, Gazebo testing, and ROS 2 for real-time inference in real robots. The code is available at https://github.com/sahars93/RL-Navigation.

arxiv情報

著者 Sahar Salimpour,Jorge Peña-Queralta,Diego Paez-Granados,Jukka Heikkonen,Tomi Westerlund
発行日 2025-01-06 10:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク