要約
私たちは、複雑な低レベル制御(例:接触が多いオブジェクトの操作)のデモンストレーションから一般化可能なポリシー学習を研究します。
我々は次善のデモを利用した新しい階層模倣学習法を提案する。
まず、教師なしの方法でデモの複数ステップのサブスキル分解を効率的に発見する、観察空間にとらわれないアプローチを提案します。
一時的に近いアクションや機能的に類似したアクションをサブスキル レベルのデモ セグメントにグループ化することで、セグメント境界での観察がタスクの計画ステップの連鎖を構成します。これを思考連鎖 (CoT) と呼びます。
次に、サブスキル レベルのガイダンスとして CoT を予測する方法を効果的に学習する Transformer ベースの設計を提案します。
学習可能なプロンプト トークンとハイブリッド マスキング戦略を介してアクションとサブスキルの予測を組み合わせます。これにより、テスト時に動的に更新されるガイダンスが可能になり、一般化可能なポリシー学習の軌跡の特徴表現が向上します。
私たちの手法である思考連鎖予測制御 (CoTPC) は、次善のデモによる困難な操作タスクにおいて、既存の強力なベースラインを常に上回っています。
要約(オリジナル)
We study generalizable policy learning from demonstrations for complex low-level control (e.g., contact-rich object manipulations). We propose a novel hierarchical imitation learning method that utilizes sub-optimal demos. Firstly, we propose an observation space-agnostic approach that efficiently discovers the multi-step subskill decomposition of the demos in an unsupervised manner. By grouping temporarily close and functionally similar actions into subskill-level demo segments, the observations at the segment boundaries constitute a chain of planning steps for the task, which we refer to as the chain-of-thought (CoT). Next, we propose a Transformer-based design that effectively learns to predict the CoT as the subskill-level guidance. We couple action and subskill predictions via learnable prompt tokens and a hybrid masking strategy, which enable dynamically updated guidance at test time and improve feature representation of the trajectory for generalizable policy learning. Our method, Chain-of-Thought Predictive Control (CoTPC), consistently surpasses existing strong baselines on challenging manipulation tasks with sub-optimal demos.
arxiv情報
著者 | Zhiwei Jia,Vineet Thumuluri,Fangchen Liu,Linghao Chen,Zhiao Huang,Hao Su |
発行日 | 2024-07-07 22:06:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google