Learning from demonstrations: An intuitive VR environment for imitation learning of construction robots

要約

建設ロボットは、労働集約的で反復的な建設作業という従来のパラダイムに挑戦しています。
建設ロボットに関する現在の懸念は、いくつかのサブタスクからなる複雑なタスクを実行するロボットの能力と、構造化されていない動的な建設環境での作業への適応性に焦点が当てられています。
模倣学習(IL)は、複雑なタスクで専門家の行動を模倣するようにロボットを訓練する際に利点があることが示されており、その後強化学習(RL)によって生成されるポリシーは、事前にプログラムされたロボットと比較して適応性が高くなります。
本稿では建設ロボットの模倣学習を行うための2つのモジュールから構成されるフレームワークを提案した。
最初のモジュールは、直感的なエキスパート デモンストレーション コレクションの仮想現実 (VR) プラットフォームを提供します。このプラットフォームでは、エキスパートがコントローラーを介してロボットを制御する必要がなく、ロボットがエキスパートの手の位置、回転、動作をリアルタイムで自動的に追跡します。
2 番目のモジュールは、最初のモジュールで記録された観察とアクションを使用した模倣学習用のテンプレートを提供します。
2 番目のモジュールでは、事前トレーニングに行動クローニング (BC) が利用され、敵対的生成模倣学習 (GAIL) と近接ポリシー最適化 (PPO) が組み合わされて、模倣と探索の強さのトレードオフが達成されます。
結果は、模倣学習は、特に PPO と組み合わせた場合、限られたトレーニングステップでトレーニングを大幅に加速し、政策のパフォーマンスを向上させる可能性があることを示しています。

要約(オリジナル)

Construction robots are challenging the traditional paradigm of labor intensive and repetitive construction tasks. Present concerns regarding construction robots are focused on their abilities in performing complex tasks consisting of several subtasks and their adaptability to work in unstructured and dynamic construction environments. Imitation learning (IL) has shown advantages in training a robot to imitate expert actions in complex tasks and the policy thereafter generated by reinforcement learning (RL) is more adaptive in comparison with pre-programmed robots. In this paper, we proposed a framework composed of two modules for imitation learning of construction robots. The first module provides an intuitive expert demonstration collection Virtual Reality (VR) platform where a robot will automatically follow the position, rotation, and actions of the expert’s hand in real-time, instead of requiring an expert to control the robot via controllers. The second module provides a template for imitation learning using observations and actions recorded in the first module. In the second module, Behavior Cloning (BC) is utilized for pre-training, Generative Adversarial Imitation Learning (GAIL) and Proximal Policy Optimization (PPO) are combined to achieve a trade-off between the strength of imitation vs. exploration. Results show that imitation learning, especially when combined with PPO, could significantly accelerate training in limited training steps and improve policy performance.

arxiv情報

著者 Kangkang Duan,Zhengbo Zou
発行日 2023-05-23 23:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク