KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance

要約

オンライン模倣学習手法は、広大なオンライン探索空間と限られた専門家の軌跡との間のギャップに苦戦しており、不正確なタスク認識型報酬推定により効率的な探索が妨げられます。
タスク分解が効率的な学習のための認知処理を促進する可能性があるという認知神経科学の発見に触発され、ターゲットタスクを「何をするか」という目標に分解することで、エージェントが効率的なオンライン探索のための正確なタスク認識型模倣報酬を推定できるという仮説を立てます。
「やり方」の仕組み。
この研究では、タスクを認識した報酬推定のガイダンスとしてセマンティック キー状態とモーション キー状態の統合を活用する、ハイブリッド キー状態ガイド付きオンライン模倣 (KOI) 学習アプローチを紹介します。
最初に、視覚言語モデルを利用して、専門家の軌跡を意味論的な重要な状態に分割し、「何をすべきか」の目的を示します。
セマンティック キーの状態間の間隔内で、オプティカル フローを使用してモーション キーの状態をキャプチャし、「やり方」のプロセスを理解します。
セマンティック キー状態とモーション キー状態の両方の徹底的な把握を統合することで、軌道マッチングの報酬計算を改良し、効率的なオンライン模倣学習のためのタスクを意識した探索を促進します。
私たちの実験結果は、Meta-World 環境と LIBERO 環境において、私たちの方法がよりサンプル効率が高いことを証明しています。
また、私たちの手法の有効性を検証するために実世界でのロボット操作実験も実施し、KOI手法の実用性を実証しています。

要約(オリジナル)

Online Imitation Learning methods struggle with the gap between extensive online exploration space and limited expert trajectories, which hinder efficient exploration due to inaccurate task-aware reward estimation. Inspired by the findings from cognitive neuroscience that task decomposition could facilitate cognitive processing for efficient learning, we hypothesize that an agent could estimate precise task-aware imitation rewards for efficient online exploration by decomposing the target task into the objectives of ‘what to do’ and the mechanisms of ‘how to do’. In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning approach, which leverages the integration of semantic and motion key states as guidance for task-aware reward estimation. Initially, we utilize the visual-language models to segment the expert trajectory into semantic key states, indicating the objectives of ‘what to do’. Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the process of ‘how to do’. By integrating a thorough grasp of both semantic and motion key states, we refine the trajectory-matching reward computation, encouraging task-aware exploration for efficient online imitation learning. Our experiment results prove that our method is more sample efficient in the Meta-World and LIBERO environments. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method.

arxiv情報

著者 Jingxian Lu,Wenke Xia,Dong Wang,Zhigang Wang,Bin Zhao,Di Hu,Xuelong Li
発行日 2024-08-08 07:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク