Bridging Active Exploration and Uncertainty-Aware Deployment Using Probabilistic Ensemble Neural Network Dynamics

要約

近年、ロボット工学における学習ベースの制御は、実世界の環境で複雑なタスクに対処できるため、大きな注目を集めています。
機械学習アルゴリズムと計算能力の進歩に伴い、未知または部分的に既知のロボットのダイナミクスを学習することでロボット工学における困難な制御問題を解決するために、このアプローチの重要性がますます高まっています。
効率的なデータ収集と人間の監視を最小限に抑えるためには、ロボットが最も高い情報を得る状態に自らを誘導する能動的な探索が不可欠です。
同様に、学習されたモデルによって通知される不確実な動作が不安定な動作や故障につながる可能性があるため、ロボット制御において不確実性を考慮した展開に対する懸念が高まっています。
ただし、積極的な探査と不確実性を考慮した展開は個別に研究されており、これらをシームレスに統合する文献は限られています。
この論文では、ロボット制御ドメインにおけるこれら 2 つのタスクの橋渡しとなる、統合されたモデルベースの強化学習フレームワークを紹介します。
私たちのフレームワークはダイナミクス学習に確率的アンサンブル ニューラル ネットワークを使用しており、Jensen-Renyi Divergence を介して認識論的不確実性を定量化できます。
探索と展開という 2 つの相反するタスクは、最先端のサンプリングベースの MPC によって最適化され、その結果、トレーニング データが効率的に収集され、不確実な状態アクション空間が回避されます。
私たちは自律走行車と車輪付きロボットの両方で実験を実施し、探査と展開の両方で有望な結果を示しています。

要約(オリジナル)

In recent years, learning-based control in robotics has gained significant attention due to its capability to address complex tasks in real-world environments. With the advances in machine learning algorithms and computational capabilities, this approach is becoming increasingly important for solving challenging control problems in robotics by learning unknown or partially known robot dynamics. Active exploration, in which a robot directs itself to states that yield the highest information gain, is essential for efficient data collection and minimizing human supervision. Similarly, uncertainty-aware deployment has been a growing concern in robotic control, as uncertain actions informed by the learned model can lead to unstable motions or failure. However, active exploration and uncertainty-aware deployment have been studied independently, and there is limited literature that seamlessly integrates them. This paper presents a unified model-based reinforcement learning framework that bridges these two tasks in the robotics control domain. Our framework uses a probabilistic ensemble neural network for dynamics learning, allowing the quantification of epistemic uncertainty via Jensen-Renyi Divergence. The two opposing tasks of exploration and deployment are optimized through state-of-the-art sampling-based MPC, resulting in efficient collection of training data and successful avoidance of uncertain state-action spaces. We conduct experiments on both autonomous vehicles and wheeled robots, showing promising results for both exploration and deployment.

arxiv情報

著者 Taekyung Kim,Jungwi Mun,Junwon Seo,Beomsu Kim,Seongil Hong
発行日 2023-05-20 17:20:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク