要約
深層強化学習 (RL) とコンピューター ビジョンの最近の進歩により、人工エージェントは、高次元のピクセル観測から移動、操作、ビデオ ゲームなどの複雑なタスクを解決できるようになりました。
ただし、ドメイン固有の報酬関数は、十分な学習信号を提供するように設計されていることが多く、専門知識が必要です。
まばらな報酬のみを使用してビジョンベースの RL エージェントをトレーニングすることは可能ですが、探索では追加の課題が発生します。
少数のデモンストレーションを利用して、画像観察のみから報酬の少ないロボット操作タスクを解決するための斬新で効率的な方法を提示します。
まず、デモンストレーション遷移から埋め込まれたニューラル ダイナミクス モデルを学習し、リプレイ バッファーでさらに微調整します。
次に、埋め込み空間で定義された距離メトリックを使用して、実証された軌跡の近くにとどまるエージェントに報酬を与えます。
最後に、ポリシー外でモデルフリーのビジョン RL アルゴリズムを使用して、制御ポリシーを更新します。
私たちの方法は、シミュレーションで最先端のサンプル効率を達成し、実際のフランカ エミカ パンダ マニピュレーターの効率的なトレーニングを可能にします。
要約(オリジナル)
Recent progress in deep reinforcement learning (RL) and computer vision enables artificial agents to solve complex tasks, including locomotion, manipulation and video games from high-dimensional pixel observations. However, domain specific reward functions are often engineered to provide sufficient learning signals, requiring expert knowledge. While it is possible to train vision-based RL agents using only sparse rewards, additional challenges in exploration arise. We present a novel and efficient method to solve sparse-reward robot manipulation tasks from only image observations by utilizing a few demonstrations. First, we learn an embedded neural dynamics model from demonstration transitions and further fine-tune it with the replay buffer. Next, we reward the agents for staying close to the demonstrated trajectories using a distance metric defined in the embedding space. Finally, we use an off-policy, model-free vision RL algorithm to update the control policies. Our method achieves state-of-the-art sample efficiency in simulation and enables efficient training of a real Franka Emika Panda manipulator.
arxiv情報
著者 | Ruihan Zhao,Ufuk Topcu,Sandeep Chinchali,Mariano Phielipp |
発行日 | 2023-02-28 01:54:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google