要約
オープンソースのロボットデータの可用性が向上するにつれて、模倣学習は、ロボット操作と移動の両方の実行可能なアプローチとして浮上しています。
現在、大規模な一般化ポリシーは、拡散モデルを使用してコントロールまたは軌跡を予測するように訓練されています。拡散モデルは、マルチモーダルアクション分布を学習するという望ましい特性を持っています。
ただし、一般化可能性にはコスト、つまりモデルサイズが大きく、推論が遅くなります。
これは、高い制御周波数を必要とするロボットタスクの問題です。
さらに、軌道を生成するための一般的なモデルである拡散ポリシー(DP)のパフォーマンスとアクションホライズンの間には既知のトレードオフがあります。
これらの理由から、ロボット計算の制約を条件として、これらのモデルを高い推論周波数で実行することが一般的な慣行です。
これらの制限に対処するために、拡散を使用して軌道を生成するのではなく、ロボットタスクの閉ループポリシー(神経ポリシーの重み)を生成する方法である潜在重量拡散(LWD)を提案します。
軌跡空間を介したパラメーター空間を介した動作分布の学習は、2つの重要な利点を提供します。長いアクション垂直(拡散クエリの少ない)と、高性能を維持しながら摂動に対する堅牢性。
推測計算コストの低下。
この目的のために、アクションホライズンが長く、環境に確率的摂動が存在する場合、LWDはDPよりも高い成功率を持っていることを示します。
さらに、LWDはDPに匹敵するマルチタスクパフォーマンスを達成しながら、推論時間フロップのわずか1/45番目を必要とします
要約(オリジナル)
With the increasing availability of open-source robotic data, imitation learning has emerged as a viable approach for both robot manipulation and locomotion. Currently, large generalized policies are trained to predict controls or trajectories using diffusion models, which have the desirable property of learning multimodal action distributions. However, generalizability comes with a cost, namely, larger model size and slower inference. This is especially an issue for robotic tasks that require high control frequency. Further, there is a known trade-off between performance and action horizon for Diffusion Policy (DP), a popular model for generating trajectories: fewer diffusion queries accumulate greater trajectory tracking errors. For these reasons, it is common practice to run these models at high inference frequency, subject to robot computational constraints. To address these limitations, we propose Latent Weight Diffusion (LWD), a method that uses diffusion to generate closed-loop policies (weights for neural policies) for robotic tasks, rather than generating trajectories. Learning the behavior distribution through parameter space over trajectory space offers two key advantages: longer action horizons (fewer diffusion queries) & robustness to perturbations while retaining high performance; and a lower inference compute cost. To this end, we show that LWD has higher success rates than DP when the action horizon is longer and when stochastic perturbations exist in the environment. Furthermore, LWD achieves multitask performance comparable to DP while requiring just ~1/45th of the inference-time FLOPS
arxiv情報
著者 | Shashank Hegde,Satyajeet Das,Gautam Salhotra,Gaurav S. Sukhatme |
発行日 | 2025-05-28 05:15:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google