Learning Exploration Strategies to Solve Real-World Marble Runs

要約

環境のわずかな変化がタスクの結果に大きな影響を与える可能性があるため、局所的に不安定または不連続なダイナミクス (分岐や衝突など) を伴うタスクは、ロボット工学では依然として困難です。
このようなタスクでは、堅牢な決定論的ポリシーを学習することは困難です。
効率的に適応できる専門家 (MoE) ポリシー表現の混合に基づく複数の確率的ポリシーを使用して探索を構造化することに焦点を当てています。
MoE ポリシーは、アクション スペース (または戦略) の複数の異なる領域の探索を可能にする確率的サブポリシーと、最も有望な領域への探索を導く高レベルの選択ポリシーで構成されます。
実世界の物理的な問題解決領域でのアプローチを評価するためのロボット システムを開発します。
シミュレーションで MoE ポリシーをトレーニングした後、現実世界でのオンライン学習は、最小限の sim2real ギャップで、わずか数十回の試行で効率的な適応を示します。
私たちの結果は、複数の戦略を表すことが新しい環境での効率的な適応を促進し、さまざまなダイナミクスの下で学習された戦略が、優れた戦略を探す場所に関する有用な情報を提供できることを確認しています。

要約(オリジナル)

Tasks involving locally unstable or discontinuous dynamics (such as bifurcations and collisions) remain challenging in robotics, because small variations in the environment can have a significant impact on task outcomes. For such tasks, learning a robust deterministic policy is difficult. We focus on structuring exploration with multiple stochastic policies based on a mixture of experts (MoE) policy representation that can be efficiently adapted. The MoE policy is composed of stochastic sub-policies that allow exploration of multiple distinct regions of the action space (or strategies) and a high-level selection policy to guide exploration towards the most promising regions. We develop a robot system to evaluate our approach in a real-world physical problem solving domain. After training the MoE policy in simulation, online learning in the real world demonstrates efficient adaptation within just a few dozen attempts, with a minimal sim2real gap. Our results confirm that representing multiple strategies promotes efficient adaptation in new environments and strategies learned under different dynamics can still provide useful information about where to look for good strategies.

arxiv情報

著者 Alisa Allaire,Christopher G. Atkeson
発行日 2023-03-08 22:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク