SeRO: Self-Supervised Reinforcement Learning for Recovery from Out-of-Distribution Situations

要約

強化学習を使用して訓練されたロボット エージェントには、配布外 (OOD) 状態で信頼性の低いアクションを実行するという問題があります。
エージェントがトレーニング中に状態空間全体を訪問して学習することはほとんど不可能であるため、エージェントは現実世界の環境で容易に OOD になる可能性があります。
残念ながら、信頼性の低いアクションでは、エージェントが元のタスクを正常に実行することが保証されません。
したがって、エージェントは、自分が OOD 状態にあるかどうかを認識し、信頼性の低いアクションを取り続けるのではなく、学習した状態分布に戻る方法を学習できる必要があります。
この研究では、エージェントが OOD 状態に陥った場合に、自己監視された方法で OOD 状況から回復できるようにエージェントを再訓練するための新しい方法を提案します。
私たちの綿密な実験結果は、私たちの方法がサンプル効率と元のタスクのパフォーマンスの回復の点で、OOD 状況から回復するエージェントの能力を大幅に向上させることを示しています。
さらに、探索を通じて分布内の状態を訪問することが難しい場合でも、私たちの方法がエージェントを再訓練して OOD 状況から回復できることを示します。

要約(オリジナル)

Robotic agents trained using reinforcement learning have the problem of taking unreliable actions in an out-of-distribution (OOD) state. Agents can easily become OOD in real-world environments because it is almost impossible for them to visit and learn the entire state space during training. Unfortunately, unreliable actions do not ensure that agents perform their original tasks successfully. Therefore, agents should be able to recognize whether they are in OOD states and learn how to return to the learned state distribution rather than continue to take unreliable actions. In this study, we propose a novel method for retraining agents to recover from OOD situations in a self-supervised manner when they fall into OOD states. Our in-depth experimental results demonstrate that our method substantially improves the agent’s ability to recover from OOD situations in terms of sample efficiency and restoration of the performance for the original tasks. Moreover, we show that our method can retrain the agent to recover from OOD situations even when in-distribution states are difficult to visit through exploration.

arxiv情報

著者 Chan Kim,Jaekyung Cho,Christophe Bobda,Seung-Woo Seo,Seong-Woo Kim
発行日 2023-11-07 01:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク