A Multifidelity Sim-to-Real Pipeline for Verifiable and Compositional Reinforcement Learning

要約

我々は、物理的ハードウェア上に信頼性が高く適応性の高いRLポリシーを展開するために、マルチフィデリティのシム-トゥ-リアルパイプライン内で強化学習(RL)システムの訓練と検証を行うための構成フレームワークを提案し、実証する。複雑なロボットタスクをコンポーネントサブタスクに分解し、それらの間の数学的インタフェースを定義することにより、このフレームワークは、対応するサブタスクポリシーの独立したトレーニングとテストを可能にし、同時に、それらの構成から生じる全体的な動作の保証を提供する。マルチフィデリティシミュレーションパイプラインを用いてこれらのサブタスクポリシーの性能を検証することにより、フレームワークは効率的なRLトレーニングを可能にするだけでなく、シミュレーションと現実の間の不一致から生じる課題に対応してサブタスクとそのインターフェースを改良することも可能にする。実験的なケーススタディでは、このフレームワークを適用して、無人地上ロボットWarthogの操縦に成功した構成的RLシステムを訓練し、展開する。

要約(オリジナル)

We propose and demonstrate a compositional framework for training and verifying reinforcement learning (RL) systems within a multifidelity sim-to-real pipeline, in order to deploy reliable and adaptable RL policies on physical hardware. By decomposing complex robotic tasks into component subtasks and defining mathematical interfaces between them, the framework allows for the independent training and testing of the corresponding subtask policies, while simultaneously providing guarantees on the overall behavior that results from their composition. By verifying the performance of these subtask policies using a multifidelity simulation pipeline, the framework not only allows for efficient RL training, but also for a refinement of the subtasks and their interfaces in response to challenges arising from discrepancies between simulation and reality. In an experimental case study we apply the framework to train and deploy a compositional RL system that successfully pilots a Warthog unmanned ground robot.

arxiv情報

著者 Cyrus Neary,Christian Ellis,Aryaman Singh Samyal,Craig Lennon,Ufuk Topcu
発行日 2023-12-02 23:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク