要約
ロボット工学のための言語条件付きマルチタスク模倣学習フレームワークであるLumosを紹介します。
Lumosは、学んだ世界モデルの潜在的な空間で多くの長距離のロールアウトを練習することでスキルを学び、これらのスキルを実際のロボットにゼロショットに転送します。
学んだ世界モデルの潜在的な空間でポリシーで学習することにより、私たちのアルゴリズムは、ほとんどのオフラインの模倣学習方法に苦しむ政策誘発分布シフトを緩和します。
Lumosは、非構造化されたプレイデータから1%未満の後知恵の言語注釈を学びますが、テスト時に言語コマンドを使用して操縦できます。
トレーニング中に潜在的な計画と画像ベースの後知恵の目標再溶解と組み合わせることと、複数の時間ステップで世界モデルの潜在空間で定義された本質的な報酬を最適化し、共変量シフトを効果的に削減することにより、この一貫した長老のパフォーマンスを達成します。
困難な長老のカルビンベンチマークの実験では、Lumosは、チェーンされたマルチタスク評価で同等のアプローチを備えた以前の学習ベースの方法を上回ります。
私たちの知る限り、私たちは、オフラインの世界モデル内の現実世界のロボットの言語条件付きの連続視力制御を学ぶ最初の人です。
ビデオ、データセット、コードはhttp://lumos.cs.uni-freiburg.deで入手できます。
要約(オリジナル)
We introduce LUMOS, a language-conditioned multi-task imitation learning framework for robotics. LUMOS learns skills by practicing them over many long-horizon rollouts in the latent space of a learned world model and transfers these skills zero-shot to a real robot. By learning on-policy in the latent space of the learned world model, our algorithm mitigates policy-induced distribution shift which most offline imitation learning methods suffer from. LUMOS learns from unstructured play data with fewer than 1% hindsight language annotations but is steerable with language commands at test time. We achieve this coherent long-horizon performance by combining latent planning with both image- and language-based hindsight goal relabeling during training, and by optimizing an intrinsic reward defined in the latent space of the world model over multiple time steps, effectively reducing covariate shift. In experiments on the difficult long-horizon CALVIN benchmark, LUMOS outperforms prior learning-based methods with comparable approaches on chained multi-task evaluations. To the best of our knowledge, we are the first to learn a language-conditioned continuous visuomotor control for a real-world robot within an offline world model. Videos, dataset and code are available at http://lumos.cs.uni-freiburg.de.
arxiv情報
著者 | Iman Nematollahi,Branton DeMoss,Akshay L Chandra,Nick Hawes,Wolfram Burgard,Ingmar Posner |
発行日 | 2025-03-13 13:48:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google