要約
模倣学習を使用したロボットポリシーの学習には、トレーニングデータの規模を根本的に制限する大量の費用のかかるアクション標識専門家デモを収集する必要があります。
このボトルネックに対処するための有望なアプローチは、ビデオデモンストレーションから、潜在的な方法で潜在的なアクションラベルを学ぶために、豊富な非標識観察を活用することです。
ただし、既存の方法は、きめの細かい動きを必要とする複雑なロボットタスクに適用すると闘っていることがわかります。
私たちは、非標識観測データから複雑な連続制御タスクを解決するために必要だと思われる2つの重要な成分を組み込んだ連続潜在アクションモデル(CLAM)を設計します。
重要なことに、ラベル付けされた例は、最適ではないプレイデータから収集でき、アクションに標識された専門家データにアクセスすることなく、クラムがパフォーマンスのポリシーを学習できるようにすることができます。
DMControl(移動)およびMetaWorld(操作)の連続制御ベンチマーク、および魅力的な最先端の方法を大幅に上回るReal Widowx Robot Armで実証します。
ビデオとコードはclamrobot.github.ioで見つけることができます。
要約(オリジナル)
Learning robot policies using imitation learning requires collecting large amounts of costly action-labeled expert demonstrations, which fundamentally limits the scale of training data. A promising approach to address this bottleneck is to harness the abundance of unlabeled observations-e.g., from video demonstrations-to learn latent action labels in an unsupervised way. However, we find that existing methods struggle when applied to complex robot tasks requiring fine-grained motions. We design continuous latent action models (CLAM) which incorporate two key ingredients we find necessary for learning to solve complex continuous control tasks from unlabeled observation data: (a) using continuous latent action labels instead of discrete representations, and (b) jointly training an action decoder to ensure that the latent action space can be easily grounded to real actions with relatively few labeled examples. Importantly, the labeled examples can be collected from non-optimal play data, enabling CLAM to learn performant policies without access to any action-labeled expert data. We demonstrate on continuous control benchmarks in DMControl (locomotion) and MetaWorld (manipulation), as well as on a real WidowX robot arm that CLAM significantly outperforms prior state-of-the-art methods, remarkably with a 2-3x improvement in task success rate compared to the best baseline. Videos and code can be found at clamrobot.github.io.
arxiv情報
著者 | Anthony Liang,Pavel Czempin,Matthew Hong,Yutai Zhou,Erdem Biyik,Stephen Tu |
発行日 | 2025-05-08 07:07:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google