Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

要約

屋内環境でのロボットによるモバイル操作のための大規模シミュレーションおよび強化学習 (RL) フレームワークである Gaoptic を紹介します。
具体的には、フェッチ ロボット (モバイル ベース、7DoF アーム、RGBD カメラ、エゴモーション、オンボード センシングを装備) が家庭環境で生成され、オブジェクトに移動し、それを拾い上げ、ターゲットに移動することによって、オブジェクトを再配置するように求められます。
位置を指定し、オブジェクトをターゲット位置に配置します。
ギャラクティックは速いです。
シミュレーション速度 (レンダリング + 物理学) の点では、Galaxy は 8 GPU ノードで 421,000 ステップ/秒 (SPS) 以上を達成しており、これは Habitat 2.0 (7699 SPS) よりも 54 倍高速です。
さらに重要なことは、相互プレイにボトルネックがあるとトレーニングが遅くなるため、ギャラクティックはレンダリング + 物理学 + RL の相互プレイ全体を最適化するように設計されているということです。
シミュレーション + RL 速度 (レンダリング + 物理学 + 推論 + 学習) の観点から見ると、Galaxy は 108,000 SPS 以上を達成しており、これは Habitat 2.0 (1243 SPS) よりも 88 倍高速です。
これらの大幅な高速化により、既存の実験の実時間トレーニング時間が大幅に短縮されるだけでなく、前例のない規模の新しい実験が可能になります。
まず、Galaxy では、モバイル ピック スキルを 16 分以内に 80% 以上の精度でトレーニングできます。これは、Habitat 2.0 で同じスキルをトレーニングするのに 24 時間以上かかるのと比較して、100 倍のスピードアップです。
2つ目は、ギャラクティックを使用して、ロボットの20年間の経験に相当する、46時間で50億ステップの経験を使用したこれまでで最大規模の再配置実験を実行します。
このスケーリングにより、タスクに依存しないコンポーネントで構成される単一のニューラル ネットワークが GeometricGoal の再配置で 85% の成功を達成しました。これに対し、Habitat 2.0 では同じアプローチで 0% の成功が報告されました。
コードは github.com/facebookresearch/gaoptic で入手できます。

要約(オリジナル)

We present Galactic, a large-scale simulation and reinforcement-learning (RL) framework for robotic mobile manipulation in indoor environments. Specifically, a Fetch robot (equipped with a mobile base, 7DoF arm, RGBD camera, egomotion, and onboard sensing) is spawned in a home environment and asked to rearrange objects – by navigating to an object, picking it up, navigating to a target location, and then placing the object at the target location. Galactic is fast. In terms of simulation speed (rendering + physics), Galactic achieves over 421,000 steps-per-second (SPS) on an 8-GPU node, which is 54x faster than Habitat 2.0 (7699 SPS). More importantly, Galactic was designed to optimize the entire rendering + physics + RL interplay since any bottleneck in the interplay slows down training. In terms of simulation+RL speed (rendering + physics + inference + learning), Galactic achieves over 108,000 SPS, which 88x faster than Habitat 2.0 (1243 SPS). These massive speed-ups not only drastically cut the wall-clock training time of existing experiments, but also unlock an unprecedented scale of new experiments. First, Galactic can train a mobile pick skill to >80% accuracy in under 16 minutes, a 100x speedup compared to the over 24 hours it takes to train the same skill in Habitat 2.0. Second, we use Galactic to perform the largest-scale experiment to date for rearrangement using 5B steps of experience in 46 hours, which is equivalent to 20 years of robot experience. This scaling results in a single neural network composed of task-agnostic components achieving 85% success in GeometricGoal rearrangement, compared to 0% success reported in Habitat 2.0 for the same approach. The code is available at github.com/facebookresearch/galactic.

arxiv情報

著者 Vincent-Pierre Berges,Andrew Szot,Devendra Singh Chaplot,Aaron Gokaslan,Roozbeh Mottaghi,Dhruv Batra,Eric Undersander
発行日 2023-06-13 05:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク