FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning

要約

少数ショット模倣学習は、少量のタスク固有のデモンストレーションのみに依存して、特定の下流タスクにポリシーを効率的に適応させます。
検索ベースの手法には、ポリシーを学習するときに、関連する過去の経験を取得してこの対象データを増強することが約束されています。
しかし、既存のデータ検索方法は 2 つの極端な方法に分類されます。1 つは、以前のデータに視覚的に類似したシーンによる正確な動作の存在に依存するものであり、これを想定するのは現実的ではありません。
または、タスクの高級言語記述の意味論的な類似性に基づいて取得しますが、これは、ポリシー学習に関連するデータを取得するためのより重要な要素であることが多い、タスク間で共有される低レベルの動作や動作についてはあまり有益ではない可能性があります。
この研究では、膨大な量のタスク間データの動きの類似性を活用して、ターゲット タスクの数ショット模倣学習を改善する方法を調査します。
私たちの重要な洞察は、動き類似データには、数ショットの適応中に活用できるアクションやオブジェクトの相互作用の効果に関する豊富な情報が含まれているということです。
我々は、オプティカルフロー表現を活用して、過去のデータから対象タスクに類似した動作を抽出し、そのデータから最大限の利益を得ることができるポリシーの学習を導くアプローチであるFlowRetrievalを提案します。
私たちの結果は、FlowRetrieval がシミュレートされたドメインと現実世界のドメインにわたって従来の方法を大幅に上回り、最良の検索ベースの従来の方法よりも平均で 27% 高い成功率を達成していることを示しています。
本物の Franka Emika ロボットを使用した Pen-in-Cup タスクでは、FlowRetrieval は、以前のすべてのデータとターゲット データから学習するベースライン模倣学習手法の 3.7 倍のパフォーマンスを達成しました。
ウェブサイト: https://flow-retrieval.github.io

要約(オリジナル)

Few-shot imitation learning relies on only a small amount of task-specific demonstrations to efficiently adapt a policy for a given downstream tasks. Retrieval-based methods come with a promise of retrieving relevant past experiences to augment this target data when learning policies. However, existing data retrieval methods fall under two extremes: they either rely on the existence of exact behaviors with visually similar scenes in the prior data, which is impractical to assume; or they retrieve based on semantic similarity of high-level language descriptions of the task, which might not be that informative about the shared low-level behaviors or motions across tasks that is often a more important factor for retrieving relevant data for policy learning. In this work, we investigate how we can leverage motion similarity in the vast amount of cross-task data to improve few-shot imitation learning of the target task. Our key insight is that motion-similar data carries rich information about the effects of actions and object interactions that can be leveraged during few-shot adaptation. We propose FlowRetrieval, an approach that leverages optical flow representations for both extracting similar motions to target tasks from prior data, and for guiding learning of a policy that can maximally benefit from such data. Our results show FlowRetrieval significantly outperforms prior methods across simulated and real-world domains, achieving on average 27% higher success rate than the best retrieval-based prior method. In the Pen-in-Cup task with a real Franka Emika robot, FlowRetrieval achieves 3.7x the performance of the baseline imitation learning technique that learns from all prior and target data. Website: https://flow-retrieval.github.io

arxiv情報

著者 Li-Heng Lin,Yuchen Cui,Amber Xie,Tianyu Hua,Dorsa Sadigh
発行日 2024-10-11 07:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク