要約
深さと光の流れの推定、同時ローカリゼーションとマッピング(SLAM)、および自動制御などのロボット認識と制御タスクを実行するニューラルネットワークの能力により、近年、広範囲にわたる採用が行われました。
ディープ補強学習は、監視された学習に関連する持続不可能なトレーニングコストがないため、これらの設定で広く使用されています。
ただし、DeepRLはサンプル効率が低いことに苦しんでいます。つまり、許容可能なソリューションに収束するには、多数の環境相互作用が必要です。
深いQ学習やこの欠点を改善しようとするソフトな俳優と批判的な試みなどの最新のRLアルゴリズムは、自律的なロボット工学などのアプリケーションに必要な説明可能性を提供することはできません。
人間は、ロボット工学によく見られる長年のホリゾンの連続タスクを直感的に理解しています。
このような直感を適切に使用すると、RLポリシーがサンプルの効率を高めながら、より説明しやすくなります。
この作業では、確率的グラフィカルモデル(PGM)を使用して人間の直感をエンコードし、ディープRLトレーニングパイプラインで使用してサンプル効率を高めるための新しいフレームワークであるシャイアを提案します。
私たちのフレームワークは、無視できる間接費で評価する環境全体で25〜78%のサンプル効率の向上を達成します。
さらに、RLエージェントにエンコードされた基本的な行動を教えることにより、シャイアは政策の説明可能性を高めます。
実際のデモンストレーションは、フレームワークを使用して訓練されたポリシーの有効性をさらに強調しています。
要約(オリジナル)
The ability of neural networks to perform robotic perception and control tasks such as depth and optical flow estimation, simultaneous localization and mapping (SLAM), and automatic control has led to their widespread adoption in recent years. Deep Reinforcement Learning has been used extensively in these settings, as it does not have the unsustainable training costs associated with supervised learning. However, DeepRL suffers from poor sample efficiency, i.e., it requires a large number of environmental interactions to converge to an acceptable solution. Modern RL algorithms such as Deep Q Learning and Soft Actor-Critic attempt to remedy this shortcoming but can not provide the explainability required in applications such as autonomous robotics. Humans intuitively understand the long-time-horizon sequential tasks common in robotics. Properly using such intuition can make RL policies more explainable while enhancing their sample efficiency. In this work, we propose SHIRE, a novel framework for encoding human intuition using Probabilistic Graphical Models (PGMs) and using it in the Deep RL training pipeline to enhance sample efficiency. Our framework achieves 25-78% sample efficiency gains across the environments we evaluate at negligible overhead cost. Additionally, by teaching RL agents the encoded elementary behavior, SHIRE enhances policy explainability. A real-world demonstration further highlights the efficacy of policies trained using our framework.
arxiv情報
著者 | Amogh Joshi,Adarsh Kumar Kosta,Kaushik Roy |
発行日 | 2025-03-19 15:04:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google