Latent Weight Diffusion: Generating Policies from Trajectories

要約

オープンソースのロボット データの利用可能性が高まるにつれて、模倣学習はロボットの操作と移動の両方に対する実行可能なアプローチとして浮上しています。
現在、大規模な一般化されたポリシーは、マルチモーダルなアクション分布を学習するという望ましい特性を備えた拡散モデルを使用して制御または軌道を予測するようにトレーニングされています。
ただし、一般化可能性にはコストが伴います。つまり、モデルのサイズが大きくなり、推論が遅くなります。
さらに、拡散ポリシー (つまり、軌道の拡散) のパフォーマンスとアクション範囲の間には既知のトレードオフがあります。つまり、拡散クエリが少ないほど、蓄積される軌道追跡エラーが大きくなります。
したがって、ロボットの計算上の制約に従って、これらのモデルを高い推論頻度で実行するのが一般的です。
これらの制限に対処するために、我々は潜在重量拡散 (LWD) を提案します。これは、拡散を使用して、軌道全体ではなく、ロボット タスクのポリシー全体の分布を学習する方法です。
私たちのアプローチは、デモンストレーションの軌跡を潜在空間にエンコードし、ハイパーネットワークを使用してポリシーにデコードします。
この潜在空間内で拡散ノイズ除去モデルを使用して、その分布を学習します。
LWD が軌跡データセットを生成した元のポリシーの動作を再構築できることを実証します。
LWD では、推論中にポリシー ネットワークが大幅に小さくなるという利点があり、必要な拡散モデル クエリが少なくなります。
Metaworld MT10 ベンチマークでテストした場合、LWD は、推論中に最大 18 分の 1 小さいモデルを使用しながら、通常のマルチタスク ポリシーと比較して高い成功率を達成します。
さらに、LWD は閉ループ ポリシーを生成するため、アクション期間が長い設定では拡散ポリシーよりも優れたパフォーマンスを示し、ロールアウト中の拡散クエリが減少します。

要約(オリジナル)

With the increasing availability of open-source robotic data, imitation learning has emerged as a viable approach for both robot manipulation and locomotion. Currently, large generalized policies are trained to predict controls or trajectories using diffusion models, which have the desirable property of learning multimodal action distributions. However, generalizability comes with a cost – namely, larger model size and slower inference. Further, there is a known trade-off between performance and action horizon for Diffusion Policy (i.e., diffusing trajectories): fewer diffusion queries accumulate greater trajectory tracking errors. Thus, it is common practice to run these models at high inference frequency, subject to robot computational constraints. To address these limitations, we propose Latent Weight Diffusion (LWD), a method that uses diffusion to learn a distribution over policies for robotic tasks, rather than over trajectories. Our approach encodes demonstration trajectories into a latent space and then decodes them into policies using a hypernetwork. We employ a diffusion denoising model within this latent space to learn its distribution. We demonstrate that LWD can reconstruct the behaviors of the original policies that generated the trajectory dataset. LWD offers the benefits of considerably smaller policy networks during inference and requires fewer diffusion model queries. When tested on the Metaworld MT10 benchmark, LWD achieves a higher success rate compared to a vanilla multi-task policy, while using models up to ~18x smaller during inference. Additionally, since LWD generates closed-loop policies, we show that it outperforms Diffusion Policy in long action horizon settings, with reduced diffusion queries during rollout.

arxiv情報

著者 Shashank Hegde,Gautam Salhotra,Gaurav S. Sukhatme
発行日 2024-10-17 21:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク