From Knowing to Doing: Learning Diverse Motor Skills through Instruction Learning

要約

近年、ロボット学習の分野で多くの成功した試験が行われています。
接触の多いロボットタスクの場合、強化学習によって協調運動スキルを学習するのは困難です。
模倣学習では、模倣報酬を使用してロボットが指定された参照軌道を追跡するように促すことで、この問題を解決します。
しかし、模倣学習はあまり効率的ではなく、学習した動作が制約される可能性があります。
この論文では、人間の学習プロセスにヒントを得た、ロボットの動作学習に非常に効率的で柔軟かつ多用途な命令学習を提案します。
命令学習では、報酬に参照信号を使用する代わりに、参照信号をフィードフォワード動作として直接適用し、強化学習で学習したフィードバック動作と組み合わせてロボットを制御します。
さらに、アクション境界テクニックを提案し、効率的で柔軟な学習に重要であることが示されている模倣報酬を削除します。
指導学習と模倣学習のパフォーマンスを比較しました。これは、指導学習がトレーニングプロセスを大幅にスピードアップし、目的の動作を正しく学習することを保証できることを示しています。
命令学習の有効性は、通常、数百万ステップ以内でスキルを学習できる、二足歩行ロボットと四足歩行ロボットの一連の動作学習例を通じて検証されています。
そのほか、本物の四足歩行ロボットを使ったシミュレーション・トゥ・リアル転送実験やオンライン学習実験も行っています。
指導学習は大きなメリットと可能性を示しており、模倣学習の有望な代替手段となっています。

要約(オリジナル)

Recent years have witnessed many successful trials in the robot learning field. For contact-rich robotic tasks, it is challenging to learn coordinated motor skills by reinforcement learning. Imitation learning solves this problem by using a mimic reward to encourage the robot to track a given reference trajectory. However, imitation learning is not so efficient and may constrain the learned motion. In this paper, we propose instruction learning, which is inspired by the human learning process and is highly efficient, flexible, and versatile for robot motion learning. Instead of using a reference signal in the reward, instruction learning applies a reference signal directly as a feedforward action, and it is combined with a feedback action learned by reinforcement learning to control the robot. Besides, we propose the action bounding technique and remove the mimic reward, which is shown to be crucial for efficient and flexible learning. We compare the performance of instruction learning with imitation learning, indicating that instruction learning can greatly speed up the training process and guarantee learning the desired motion correctly. The effectiveness of instruction learning is validated through a bunch of motion learning examples for a biped robot and a quadruped robot, where skills can be learned typically within several million steps. Besides, we also conduct sim-to-real transfer and online learning experiments on a real quadruped robot. Instruction learning has shown great merits and potential, making it a promising alternative for imitation learning.

arxiv情報

著者 Linqi Ye,Jiayi Li,Yi Cheng,Xianhao Wang,Bin Liang,Yan Peng
発行日 2023-11-01 16:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク