Learning Manipulation Skills through Robot Chain-of-Thought with Sparse Failure Guidance

要約

スキル学習の報酬機能を定義することは、ロボット工学における長年の課題でした。
最近、Vision-Language Models(VLM)は、ロボットの操作スキルを教えるための報酬シグナルを定義する際に有望を示しています。
ただし、既存の作業は、多くの場合、粗すぎる報酬ガイダンスを提供し、学習プロセスが不十分であることがあります。
この論文では、より微調整された報酬ガイダンスを実装することにより、この問題に対処します。
この分解を使用して、VLMSでより有益な報酬ガイダンスを提供するために、タスクをより単純なサブタスクに分解します。
また、学習を高速化するために、VLMベースの自己模倣学習プロセスを提案します。
経験的証拠は、私たちのアルゴリズムがClip、Liv、Roboclipなどのベースラインを常に上回ることを示しています。
具体的には、当社のアルゴリズムは、一連の操作タスクにわたって、ベストベースラインであるロボクリップと比較して、5.4 \タイムの平均成功率を達成します。

要約(オリジナル)

Defining reward functions for skill learning has been a long-standing challenge in robotics. Recently, vision-language models (VLMs) have shown promise in defining reward signals for teaching robots manipulation skills. However, existing work often provides reward guidance that is too coarse, leading to insufficient learning processes. In this paper, we address this issue by implementing more fine-grained reward guidance. We decompose tasks into simpler sub-tasks, using this decomposition to offer more informative reward guidance with VLMs. We also propose a VLM-based self imitation learning process to speed up learning. Empirical evidence demonstrates that our algorithm consistently outperforms baselines such as CLIP, LIV, and RoboCLIP. Specifically, our algorithm achieves a $5.4 \times$ higher average success rates compared to the best baseline, RoboCLIP, across a series of manipulation tasks.

arxiv情報

著者 Kaifeng Zhang,Zhao-Heng Yin,Weirui Ye,Yang Gao
発行日 2025-02-12 14:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク