Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation

要約

ロボット操作などの複雑な環境内で複数のタスクに効率的に取り組むことは、ロボット工学における継続的な課題であり、強化学習 (RL) などのデータ駆動型ソリューションの機会でもあります。
モデルベース RL では、ロボットの動的モデルを構築することで、同じロボットと同様の環境を使用したタスク間でのデータの再利用と学習の伝達が可能になります。
さらに、ロボット工学におけるデータ収集には費用がかかるため、モデルベースの RL などのデータ効率の高いアプローチに依存する必要があります。ポリシー学習は主に、学習されたモデルに基づく安価なシミュレーションで行われます。
したがって、モデルの品質は、事後タスクのパフォーマンスの基礎となります。
この作業では、最大限の情報収集に基づいた予備探索フェーズで動的モデルのアクティブラーニングを実行することで、モデルの品質を向上させ、データ効率を維持することに重点を置いています。
私たちはベイジアン ニューラル ネットワーク モデルを使用して、探索中に動的モデルにエンコードされた信念と情報の両方を確率論的な方法で表現します。
提示した戦略を使用すると、これを探索報酬として使用して、各遷移の新規性を積極的に推定することができます。
この研究では、ニューラル ネットワークのいくつかのベイジアン推論手法を比較し、その中にはロボット工学のコンテキストで一度も使用されたことがない手法もあり、それらを現実的なロボット操作セットアップで評価します。
私たちの実験では、ベイジアン モデルベースの RL アプローチの利点が示されており、ロボットの実行ステップに関する要件がはるかに低い関連する代替案と比べて、同様の品質の結果が得られます。
おもちゃの問題のみに検証を焦点を当てた関連する以前の研究とは異なり、私たちの研究はより現実的なセットアップに向けて一歩を踏み出し、ロボットアームの最終タスクに取り組みます。

要約(オリジナル)

Efficiently tackling multiple tasks within complex environment, such as those found in robot manipulation, remains an ongoing challenge in robotics and an opportunity for data-driven solutions, such as reinforcement learning (RL). Model-based RL, by building a dynamic model of the robot, enables data reuse and transfer learning between tasks with the same robot and similar environment. Furthermore, data gathering in robotics is expensive and we must rely on data efficient approaches such as model-based RL, where policy learning is mostly conducted on cheaper simulations based on the learned model. Therefore, the quality of the model is fundamental for the performance of the posterior tasks. In this work, we focus on improving the quality of the model and maintaining the data efficiency by performing active learning of the dynamic model during a preliminary exploration phase based on maximize information gathering. We employ Bayesian neural network models to represent, in a probabilistic way, both the belief and information encoded in the dynamic model during exploration. With our presented strategies we manage to actively estimate the novelty of each transition, using this as the exploration reward. In this work, we compare several Bayesian inference methods for neural networks, some of which have never been used in a robotics context, and evaluate them in a realistic robot manipulation setup. Our experiments show the advantages of our Bayesian model-based RL approach, with similar quality in the results than relevant alternatives with much lower requirements regarding robot execution steps. Unlike related previous studies that focused the validation solely on toy problems, our research takes a step towards more realistic setups, tackling robotic arm end-tasks.

arxiv情報

著者 Carlos Plou,Ana C. Murillo,Ruben Martinez-Cantin
発行日 2024-04-02 11:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク