要約
未知の環境でのペグインホールアセンブリは、オンボードセンサーエラーのために困難なタスクであり、その結果、穴の位置や方向などのタスクパラメーターの不確実性と変動が生じます。
Meta Rehnection Learning(Meta RL)は、さまざまなパラメーターを持つ新しいタスクに迅速に適応する方法を学習するため、この問題を軽減するために提案されています。
ただし、以前のアプローチは、現実の世界でタスクを実行するためのサンプルのない手順または人間のデモに依存しています。
私たちの作業は、Meta RLエージェントが使用するデータを変更し、非調整カメラを使用しても実際の世界で簡単に測定できるシンプルな機能を使用します。
さらに、メタRLエージェントを適応させて、カメラの代わりに力/トルクセンサーからデータを使用して、少量のトレーニングデータを使用してアセンブリを実行します。
最後に、トレーニングタスクとは10倍に異なるパラメーターを備えた分散式タスクに一貫して安全に適応する微調整方法を提案します。
我々の結果は、提案されたデータの変更により、トレーニングと適応効率が大幅に向上し、エージェントが異なる穴の位置と方向を持つタスクで100%の成功を達成できることを示しています。
実際のロボットでの実験では、カメラとフォース/トルクセンサー装備の両方のエージェントが、不明な穴の位置を持つタスクで100%の成功を収め、シミュレーションのパフォーマンスに合わせ、アプローチの堅牢性と適用性を検証することを確認します。
サンプルではない適応を伴う以前の作業と比較して、提案された方法は、実際のタスクでのサンプル効率の10倍です。
要約(オリジナル)
Peg-in-hole assembly in unknown environments is a challenging task due to onboard sensor errors, which result in uncertainty and variations in task parameters such as the hole position and orientation. Meta Reinforcement Learning (Meta RL) has been proposed to mitigate this problem as it learns how to quickly adapt to new tasks with different parameters. However, previous approaches either depend on a sample-inefficient procedure or human demonstrations to perform the task in the real world. Our work modifies the data used by the Meta RL agent and uses simple features that can be easily measured in the real world even with an uncalibrated camera. We further adapt the Meta RL agent to use data from a force/torque sensor, instead of the camera, to perform the assembly, using a small amount of training data. Finally, we propose a fine-tuning method that consistently and safely adapts to out-of-distribution tasks with parameters that differ by a factor of 10 from the training tasks. Our results demonstrate that the proposed data modification significantly enhances the training and adaptation efficiency and enables the agent to achieve 100% success in tasks with different hole positions and orientations. Experiments on a real robot confirm that both camera- and force/torque sensor-equipped agents achieve 100% success in tasks with unknown hole positions, matching their simulation performance and validating the approach’s robustness and applicability. Compared to the previous work with sample-inefficient adaptation, our proposed methods are 10 times more sample-efficient in the real-world tasks.
arxiv情報
著者 | Ahmed Shokry,Walid Gomaa,Tobias Zaenker,Murad Dawood,Rohit Menon,Shady A. Maged,Mohammed I. Awad,Maren Bennewitz |
発行日 | 2025-03-07 09:46:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google