要約
未知の環境でのペグインホールの組み立ては、オンボードセンサーのエラーにより困難な作業であり、その結果、穴の位置や向きなどの作業パラメーターに不確実性や変動が生じます。
メタ強化学習 (Meta RL) は、異なるパラメーターを使用して新しいタスクに迅速に適応する方法を学習するため、この問題を軽減するために提案されています。
しかし、これまでのアプローチは、サンプルの非効率な手順か、現実世界でタスクを実行するための人間によるデモンストレーションに依存していました。
私たちの作業では、Meta RL エージェントによって使用されるデータを変更し、校正されていないカメラでも現実世界で簡単に測定できるシンプルな機能を使用します。
さらに、少量のトレーニング データを使用してアセンブリを実行するために、カメラの代わりに力/トルク センサーからのデータを使用するように Meta RL エージェントを適応させます。
最後に、トレーニング タスクとは 10 倍異なるパラメーターを持つ分散外タスクに一貫して安全に適応する微調整方法を提案します。
私たちの結果は、提案されたデータ変更によりトレーニングと適応の効率が大幅に向上し、エージェントがさまざまな穴の位置と向きのタスクで 100% の成功を達成できることを示しています。
実際のロボットでの実験では、カメラと力/トルク センサーを装備したエージェントの両方が穴の位置が不明なタスクで 100% 成功することが確認され、シミュレーション パフォーマンスと一致し、アプローチの堅牢性と適用性が検証されました。
非効率的なサンプル適応を使用した以前の研究と比較して、私たちが提案する方法は、現実世界のタスクでは 10 倍サンプル効率が高くなります。
要約(オリジナル)
Peg-in-hole assembly in unknown environments is a challenging task due to onboard sensor errors, which result in uncertainty and variations in task parameters such as the hole position and orientation. Meta Reinforcement Learning (Meta RL) has been proposed to mitigate this problem as it learns how to quickly adapt to new tasks with different parameters. However, previous approaches either depend on a sample-inefficient procedure or human demonstrations to perform the task in the real world. Our work modifies the data used by the Meta RL agent and uses simple features that can be easily measured in the real world even with an uncalibrated camera. We further adapt the Meta RL agent to use data from a force/torque sensor, instead of the camera, to perform the assembly, using a small amount of training data. Finally, we propose a fine-tuning method that consistently and safely adapts to out-of-distribution tasks with parameters that differ by a factor of 10 from the training tasks. Our results demonstrate that the proposed data modification significantly enhances the training and adaptation efficiency and enables the agent to achieve 100% success in tasks with different hole positions and orientations. Experiments on a real robot confirm that both camera- and force/torque sensor-equipped agents achieve 100% success in tasks with unknown hole positions, matching their simulation performance and validating the approach’s robustness and applicability. Compared to the previous work with sample-inefficient adaptation, our proposed methods are 10 times more sample-efficient in the real-world tasks.
arxiv情報
著者 | Ahmed Shokry,Walid Gomaa,Tobias Zaenker,Murad Dawood,Shady A. Maged,Mohammed I. Awad,Maren Bennewitz |
発行日 | 2024-09-24 16:08:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google