Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance

要約

技能学習のための報酬関数を定義することは、ロボット工学における長年の課題であった。近年、視覚言語モデル(VLM)は、ロボットに操作スキルを教えるための報酬信号の定義に有望視されている。しかし、既存の研究では、粗すぎる報酬ガイダンスが提供されることが多く、非効率的な学習プロセスにつながる。本論文では、よりきめ細かい報酬ガイダンスを実装することで、この問題に対処する。我々はタスクをより単純なサブタスクに分解し、この分解を利用してVLMを用いたより有益な報酬ガイダンスを提供する。また、学習を高速化するために、VLMに基づく自己模倣学習プロセスを提案する。我々のアルゴリズムは、CLIP、LIV、RoboCLIPなどのベースラインを常に凌駕することを実証する。特に、我々のアルゴリズムは、一連の操作タスクにおいて、最良のベースラインであるRoboCLIPと比較して、5.4 ㎟$高い平均成功率を達成している。

要約(オリジナル)

Defining reward functions for skill learning has been a long-standing challenge in robotics. Recently, vision-language models (VLMs) have shown promise in defining reward signals for teaching robots manipulation skills. However, existing works often provide reward guidance that is too coarse, leading to inefficient learning processes. In this paper, we address this issue by implementing more fine-grained reward guidance. We decompose tasks into simpler sub-tasks, using this decomposition to offer more informative reward guidance with VLMs. We also propose a VLM-based self imitation learning process to speed up learning. Empirical evidence demonstrates that our algorithm consistently outperforms baselines such as CLIP, LIV, and RoboCLIP. Specifically, our algorithm achieves a $5.4 \times$ higher average success rate compared to the best baseline, RoboCLIP, across a series of manipulation tasks.

arxiv情報

著者 Kaifeng Zhang,Zhao-Heng Yin,Weirui Ye,Yang Gao
発行日 2024-06-01 10:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク