要約
接触モデルやオブジェクト幾何学近似などのシミュレーション パラメーター設定は、シミュレーションから現実世界の展開に移行できる堅牢なロボット ポリシーをトレーニングするために重要です。
従来のアプローチでは、通常、そのようなパラメーターの分布を手動で作成したり (ドメインのランダム化)、実際の環境のダイナミクスに最もよく一致するパラメーターを特定したり (システムの同定) していました。
ただし、多くの場合、シミュレーションと現実の間には縮まらないギャップが存在します。すべての状態とタスクにわたってシミュレーションと現実の間のダイナミクスを一致させようとすることは実行不可能な場合があり、特定のタスクに対して現実で良好に機能するポリシーにつながらない可能性があります。
この問題に対処するために、シミュレーションと現実の間のダイナミクスを一致させるのではなく、ターゲット (現実) 環境でのタスクのパフォーマンスを最適化することを目的とした、シミュレーションからリアルへの転送のための新しいタスク駆動型適応フレームワークである AdaptSim を提案します。
まず、ターゲット環境における現在のポリシーのパフォーマンスに基づいてシミュレーション パラメーターの分布を調整するための強化学習を使用して、シミュレーションで適応ポリシーをメタ学習します。
次に、少量の実データを使用して、ポリシー トレーニング用の新しいシミュレーション パラメーター分布を推測することにより、現実世界への適応を繰り返し実行します。
私たちは、(1) 直線化された二重振り子の振り上げ、(2) ボトルの動的卓上押し、(3) ヘラで食品片を動的にすくうという 3 つのロボット タスクで実験を実行します。
当社の広範なシミュレーションとハードウェア実験は、Sys-ID に基づいてターゲット環境でタスク ポリシーを直接トレーニングする方法と比較して、AdaptSim がさまざまな環境に適応する際に 1 ~ 3 倍の漸近パフォーマンスと $\sim$2 倍の実データ効率を達成することを実証しています。
ウェブサイト: https://irom-lab.github.io/AdaptSim/
要約(オリジナル)
Simulation parameter settings such as contact models and object geometry approximations are critical to training robust robotic policies capable of transferring from simulation to real-world deployment. Previous approaches typically handcraft distributions over such parameters (domain randomization), or identify parameters that best match the dynamics of the real environment (system identification). However, there is often an irreducible gap between simulation and reality: attempting to match the dynamics between simulation and reality across all states and tasks may be infeasible and may not lead to policies that perform well in reality for a specific task. Addressing this issue, we propose AdaptSim, a new task-driven adaptation framework for sim-to-real transfer that aims to optimize task performance in target (real) environments — instead of matching dynamics between simulation and reality. First, we meta-learn an adaptation policy in simulation using reinforcement learning for adjusting the simulation parameter distribution based on the current policy’s performance in a target environment. We then perform iterative real-world adaptation by inferring new simulation parameter distributions for policy training, using a small amount of real data. We perform experiments in three robotic tasks: (1) swing-up of linearized double pendulum, (2) dynamic table-top pushing of a bottle, and (3) dynamic scooping of food pieces with a spatula. Our extensive simulation and hardware experiments demonstrate AdaptSim achieving 1-3x asymptotic performance and $\sim$2x real data efficiency when adapting to different environments, compared to methods based on Sys-ID and directly training the task policy in target environments. Website: https://irom-lab.github.io/AdaptSim/
arxiv情報
著者 | Allen Z. Ren,Hongkai Dai,Benjamin Burchfiel,Anirudha Majumdar |
発行日 | 2023-10-01 03:41:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google