要約
拡散ポリシーは、少数のデモンストレーションからトレーニングしながら、複雑で高次元のロボット操作タスクで顕著な器用さと堅牢性を実証しています。
しかし、このパフォーマンスの理由は謎のままです。
この論文では、驚くべき仮説を提供します。拡散ポリシーは、アクションルックアップテーブルを本質的に記憶しています。これは有益です。
実行時に、拡散ポリシーは潜在スペースのテスト画像に最も近いトレーニング画像を見つけ、関連するトレーニングアクションシーケンスを思い出して、アクション一般化を必要とせずに反応性を提供します。
これは、モデルがアクション一般化を学習するのに十分なデータ密度がないまばらなデータレジームで効果的です。
体系的な経験的証拠でこの主張を支持します。
猫と犬の分布(OOD)画像を乱暴に条件付けた場合でも、拡散ポリシーは依然としてトレーニングデータからアクションシーケンスを出力します。
この洞察により、拡散ポリシーの軽量な代替手段として、単純なポリシーであるアクションルックアップテーブル(ALT)を提案します。
ALTポリシーは、対照的な画像エンコーダーをハッシュ関数として使用して、最も近い対応するトレーニングアクションシーケンスをインデックス化し、拡散ポリシーが暗黙的に学習する計算を明示的に実行します。
比較的小さなデータセットの場合、ALTは拡散モデルのパフォーマンスと一致し、推論時間の0.0034と0.0085のメモリフットプリントのみを必要とし、リソース制約付きロボットを使用した閉ループの推論がはるかに高速であることを経験的に示します。
また、ALTポリシーをトレーニングして、ランタイム画像間の距離がトレーニング画像から潜在的なスペースで遠すぎて、シンプルだが効果的なランタイムモニターを提供する場合に、明示的なOODフラグを提供します。
詳細については、https://stanfordmsl.github.io/alt/をご覧ください。
要約(オリジナル)
Diffusion policies have demonstrated remarkable dexterity and robustness in intricate, high-dimensional robot manipulation tasks, while training from a small number of demonstrations. However, the reason for this performance remains a mystery. In this paper, we offer a surprising hypothesis: diffusion policies essentially memorize an action lookup table — and this is beneficial. We posit that, at runtime, diffusion policies find the closest training image to the test image in a latent space, and recall the associated training action sequence, offering reactivity without the need for action generalization. This is effective in the sparse data regime, where there is not enough data density for the model to learn action generalization. We support this claim with systematic empirical evidence. Even when conditioned on wildly out of distribution (OOD) images of cats and dogs, the Diffusion Policy still outputs an action sequence from the training data. With this insight, we propose a simple policy, the Action Lookup Table (ALT), as a lightweight alternative to the Diffusion Policy. Our ALT policy uses a contrastive image encoder as a hash function to index the closest corresponding training action sequence, explicitly performing the computation that the Diffusion Policy implicitly learns. We show empirically that for relatively small datasets, ALT matches the performance of a diffusion model, while requiring only 0.0034 of the inference time and 0.0085 of the memory footprint, allowing for much faster closed-loop inference with resource constrained robots. We also train our ALT policy to give an explicit OOD flag when the distance between the runtime image is too far in the latent space from the training images, giving a simple but effective runtime monitor. More information can be found at: https://stanfordmsl.github.io/alt/.
arxiv情報
著者 | Chengyang He,Xu Liu,Gadiel Sznaier Camps,Guillaume Sartoretti,Mac Schwager |
発行日 | 2025-05-09 05:11:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google