要約
自己改善には、ロボットシステムが最初に人間が提供したデータから学習し、環境との相互作用を通じて徐々に能力を高めていく必要がある。これは、人間が継続的な練習を通じてスキルを向上させる方法と似ている。しかし、効果的な自己改善を達成することは困難であり、その主な理由は、ロボットがインタラクション中に既存の能力を繰り返す傾向があり、学習のための新しい貴重なデータを生成できないことが多いからである。本論文では、自己改善を成功させる鍵である、モードレベルの探索とデータ選択を明らかにする。ポリシーの実行中にモーダルレベルの探索メカニズムを組み込むことで、ロボットはより多様でマルチモーダルなインタラクションを生み出すことができる。同時に、これらのインタラクションから最も価値のある試行と高品質のセグメントを選択して学習する。我々は、シミュレーションベンチマークと実世界実験の両方において、効果的なロボットの自己改善を実証することに成功した。自己改善能力により、よりロバストで成功率の高いロボット制御戦略を低コストで開発することが可能になる。我々のコードと実験スクリプトは、https://ericjin2002.github.io/SIME/ で入手可能である。
要約(オリジナル)
Self-improvement requires robotic systems to initially learn from human-provided data and then gradually enhance their capabilities through interaction with the environment. This is similar to how humans improve their skills through continuous practice. However, achieving effective self-improvement is challenging, primarily because robots tend to repeat their existing abilities during interactions, often failing to generate new, valuable data for learning. In this paper, we identify the key to successful self-improvement: modal-level exploration and data selection. By incorporating a modal-level exploration mechanism during policy execution, the robot can produce more diverse and multi-modal interactions. At the same time, we select the most valuable trials and high-quality segments from these interactions for learning. We successfully demonstrate effective robot self-improvement on both simulation benchmarks and real-world experiments. The capability for self-improvement will enable us to develop more robust and high-success-rate robotic control strategies at a lower cost. Our code and experiment scripts are available at https://ericjin2002.github.io/SIME/
arxiv情報
| 著者 | Yang Jin,Jun Lv,Wenye Yu,Hongjie Fang,Yong-Lu Li,Cewu Lu |
| 発行日 | 2025-05-02 17:13:03+00:00 |
| arxivサイト | arxiv_id(pdf) |