Efficient Recovery Learning using Model Predictive Meta-Reasoning

要約

実行エラーや状態の不確実性によって引き起こされるさまざまな障害が発生する可能性があるため、現実世界の条件下での運用は困難です。
比較的良性の設定では、このような失敗は、手動で設計された少数の回復戦略のいずれかを再試行または実行することで克服できます。
対照的に、ドアを開けたり、家具を組み立てたりするなど、接触が多い一連の操作タスクは、徹底的な手作業では対応できません。
この問題に対処するために、サンプル効率の高い方法で操作戦略を堅牢化するための一般的なアプローチを提示します。
私たちのアプローチは、最初にシミュレーションでの探索を通じて現在の戦略の障害モードを発見し、次にこれらの障害を処理するための追加の回復スキルを学習することにより、堅牢性を段階的に向上させます。
効率的な学習を確保するために、スキル学習のメタ推論 (MetaReSkill) と呼ばれるオンライン アルゴリズムを提案します。これは、トレーニング中にすべての回復ポリシーの進行状況を監視し、タスクのパフォーマンスを最も向上させる可能性が高い回復にトレーニング リソースを割り当てます。
私たちのアプローチを使用して、ドアを開けるための回復スキルを学習し、シミュレーションと実際のロボットの両方で微調整をほとんど行わずに評価します。
開ループ実行と比較して、私たちの実験では、限られた量の回復学習でも、シミュレーションでは 71% から 92.4% に、実際のロボットでは 75% から 90% に大幅にタスクの成功率が向上することが示されています。

要約(オリジナル)

Operating under real world conditions is challenging due to the possibility of a wide range of failures induced by execution errors and state uncertainty. In relatively benign settings, such failures can be overcome by retrying or executing one of a small number of hand-engineered recovery strategies. By contrast, contact-rich sequential manipulation tasks, like opening doors and assembling furniture, are not amenable to exhaustive hand-engineering. To address this issue, we present a general approach for robustifying manipulation strategies in a sample-efficient manner. Our approach incrementally improves robustness by first discovering the failure modes of the current strategy via exploration in simulation and then learning additional recovery skills to handle these failures. To ensure efficient learning, we propose an online algorithm called Meta-Reasoning for Skill Learning (MetaReSkill) that monitors the progress of all recovery policies during training and allocates training resources to recoveries that are likely to improve the task performance the most. We use our approach to learn recovery skills for door-opening and evaluate them both in simulation and on a real robot with little fine-tuning. Compared to open-loop execution, our experiments show that even a limited amount of recovery learning improves task success substantially from 71% to 92.4% in simulation and from 75% to 90% on a real robot.

arxiv情報

著者 Shivam Vats,Maxim Likhachev,Oliver Kroemer
発行日 2023-03-09 07:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク