SELFI: Autonomous Self-Improvement with Reinforcement Learning for Social Navigation

要約

ロボットシステムの実世界展開において、経験によって相互作用し、改善する自律的な自己改善ロボットが鍵となる。本論文では、ロボットのオンライン経験を活用し、事前に訓練された制御ポリシーを迅速に効率的に微調整するオンライン学習手法SELFIを提案する。SELFIは、オフラインのモデルベース学習の上に、オンラインのモデルフリー強化学習を適用することで、両者の学習パラダイムの長所を引き出す。具体的には、SELFIは、オフラインの事前学習で得られた同じモデルベースの学習目的を、オンラインのモデルフリー強化学習で学習されたQ値に組み込むことで、オンライン学習プロセスを安定化させる。我々は複数の実環境においてSELFIを評価し、衝突回避の観点からの改善と、人間によるユーザー調査によって測定された、より社会的なコンプライアンス行動の改善を報告する。SELFIは、歩行者に対する先手を打った行動、小さく透明な物体に対する衝突回避、凹凸のある床面における走行の回避など、より少ない人間の介入で有用なロボット行動を迅速に学習することを可能にする。SELFIは、歩行者の先回り行動、小さな透明物体に対する衝突回避行動、凹凸のある床面に対する走行回避行動など、人間の介入をより少なくすることで、ロボットの有用な行動を迅速に学習します。

要約(オリジナル)

Autonomous self-improving robots that interact and improve with experience are key to the real-world deployment of robotic systems. In this paper, we propose an online learning method, SELFI, that leverages online robot experience to rapidly fine-tune pre-trained control policies efficiently. SELFI applies online model-free reinforcement learning on top of offline model-based learning to bring out the best parts of both learning paradigms. Specifically, SELFI stabilizes the online learning process by incorporating the same model-based learning objective from offline pre-training into the Q-values learned with online model-free reinforcement learning. We evaluate SELFI in multiple real-world environments and report improvements in terms of collision avoidance, as well as more socially compliant behavior, measured by a human user study. SELFI enables us to quickly learn useful robotic behaviors with less human interventions such as pre-emptive behavior for the pedestrians, collision avoidance for small and transparent objects, and avoiding travel on uneven floor surfaces. We provide supplementary videos to demonstrate the performance of our fine-tuned policy on our project page.

arxiv情報

著者 Noriaki Hirose,Dhruv Shah,Kyle Stachowicz,Ajay Sridhar,Sergey Levine
発行日 2024-03-01 21:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク