KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance

要約

オンライン模倣学習は、広大なオンライン探索空間と限られた専門家の軌跡との間のギャップに苦戦しており、不正確な報酬推定により効率的な探索が妨げられています。
認知神経科学の発見に触発されて、私たちは、エージェントがターゲットタスクを「何をするか」という目標と「どのように行うか」のメカニズムに分解することによって、効率的なオンライン探索のための正確なタスク認識報酬を推定できるという仮説を立てました。
この研究では、報酬推定のガイダンスとしてセマンティック キー状態とモーション キー状態の統合を活用する、ハイブリッド キー状態ガイド型オンライン模倣 (KOI) 学習方法を紹介します。
最初に、視覚言語モデルを利用して、専門家の軌跡から意味論的な重要な状態を抽出し、「何をすべきか」の目的を示します。
セマンティック キーの状態間の間隔内で、オプティカル フローを使用してモーション キーの状態をキャプチャし、「やり方」のメカニズムを理解します。
ハイブリッド キー状態の徹底的な把握を統合することで、軌道マッチングの報酬計算を改良し、タスクを意識した探索によるオンライン模倣学習を加速します。
Meta-World および LIBERO 環境でのタスクの成功率だけでなく、オンライン模倣学習中の分散傾向も評価し、私たちの方法がサンプル効率が高いことを証明しました。
また、私たちの手法の有効性を検証するために実世界のロボット操作実験も実施し、KOI手法の実用性を実証します。
ビデオとコードは https://gewu-lab.github.io/Keystate_Online_Imitation/ で入手できます。

要約(オリジナル)

Online Imitation Learning struggles with the gap between extensive online exploration space and limited expert trajectories, hindering efficient exploration due to inaccurate reward estimation. Inspired by the findings from cognitive neuroscience, we hypothesize that an agent could estimate precise task-aware reward for efficient online exploration, through decomposing the target task into the objectives of ‘what to do’ and the mechanisms of ‘how to do’. In this work, we introduce the hybrid Key-state guided Online Imitation (KOI) learning method, which leverages the integration of semantic and motion key states as guidance for reward estimation. Initially, we utilize visual-language models to extract semantic key states from expert trajectory, indicating the objectives of ‘what to do’. Within the intervals between semantic key states, optical flow is employed to capture motion key states to understand the mechanisms of ‘how to do’. By integrating a thorough grasp of hybrid key states, we refine the trajectory-matching reward computation, accelerating online imitation learning with task-aware exploration. We evaluate not only the success rate of the tasks in the Meta-World and LIBERO environments, but also the trend of variance during online imitation learning, proving that our method is more sample efficient. We also conduct real-world robotic manipulation experiments to validate the efficacy of our method, demonstrating the practical applicability of our KOI method. Videos and code are available at https://gewu-lab.github.io/Keystate_Online_Imitation/.

arxiv情報

著者 Jingxian Lu,Wenke Xia,Dong Wang,Zhigang Wang,Bin Zhao,Di Hu,Xuelong Li
発行日 2024-10-17 03:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク