Real-World Fluid Directed Rigid Body Control via Deep Reinforcement Learning

要約

強化学習 (RL) の実世界への応用における最近の進歩は、大規模なシステムを正確にシミュレートする機能に依存しています。
ただし、流体力学システムなどの領域では、高い統合率でシミュレーションするのが難しい複雑な動的現象が見られるため、高価なハードウェアや安全性が重要なハードウェアへの最新のディープ RL アルゴリズムの直接適用は制限されます。
この研究では、動的な現実世界のシナリオで RL アルゴリズムを体系的に評価するための新しいベンチトップ実験制御システム「Box o Flows」を紹介します。
Box o Flows の主要コンポーネントについて説明し、一連の実験を通じて、最先端のモデルフリー RL アルゴリズムがシンプルな報酬仕様を通じてさまざまな複雑な動作をどのように合成できるかを示します。
さらに、過去の経験を再利用することで、データ効率の高い仮説検証におけるオフライン RL の役割を調査します。
私たちは、この予備調査から得られた洞察と Box o Flows のようなシステムの可用性が、複雑で動的システムに一般的に適用できる体系的な RL アルゴリズムの開発の前進をサポートすると信じています。
補足資料と実験のビデオは、https://sites.google.com/view/box-o-flows/home で入手できます。

要約(オリジナル)

Recent advances in real-world applications of reinforcement learning (RL) have relied on the ability to accurately simulate systems at scale. However, domains such as fluid dynamical systems exhibit complex dynamic phenomena that are hard to simulate at high integration rates, limiting the direct application of modern deep RL algorithms to often expensive or safety critical hardware. In this work, we introduce ‘Box o Flows’, a novel benchtop experimental control system for systematically evaluating RL algorithms in dynamic real-world scenarios. We describe the key components of the Box o Flows, and through a series of experiments demonstrate how state-of-the-art model-free RL algorithms can synthesize a variety of complex behaviors via simple reward specifications. Furthermore, we explore the role of offline RL in data-efficient hypothesis testing by reusing past experiences. We believe that the insights gained from this preliminary study and the availability of systems like the Box o Flows support the way forward for developing systematic RL algorithms that can be generally applied to complex, dynamical systems. Supplementary material and videos of experiments are available at https://sites.google.com/view/box-o-flows/home.

arxiv情報

著者 Mohak Bhardwaj,Thomas Lampe,Michael Neunert,Francesco Romano,Abbas Abdolmaleki,Arunkumar Byravan,Markus Wulfmeier,Martin Riedmiller,Jonas Buchli
発行日 2024-02-08 23:35:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク