要約
生成モデリングを使用して、複雑な専門家のデモンストレーションの動作の複製を研究するための理論的枠組みを提案します。
私たちのフレームワークは、位置コマンド制御で学習された、または暗黙的な低レベルのコントローラーを呼び出して、専門家のデモンストレーションを中心とした模倣を安定させます。
(a) 適切な低レベルの安定性の保証と、(b) 模倣学習器としての十分強力な生成モデルがあれば、純粋な教師あり動作のクローン作成により、最適な条件で本質的に任意のエキスパートの軌跡の時間ステップごとの分布に一致する軌跡を生成できることを示します。
輸送費。
私たちの分析は、「トータルバリエーション連続性」(TVC) と呼ばれる、学習されたポリシーの確率的連続性特性に依存しています。
次に、一般的なデータ拡張計画と、実行時に拡張ノイズを追加するという新しいアルゴリズムのトリックを組み合わせることで、精度の低下を最小限に抑えて TVC を保証できることを示します。
私たちは、拡散モデルによってパラメータ化されたポリシーの保証をインスタンス化し、学習者が(ノイズ増強された)専門家ポリシーのスコアを正確に推定した場合、模倣者の軌道の分布が自然な最適輸送距離における実証者の分布に近づくことを証明します。
私たちの解析は、ノイズで増大した軌道間の複雑な結合を構築しますが、これは独立して興味深い技術である可能性があります。
最後に、アルゴリズムの推奨事項を経験的に検証し、生成モデリングを使用したより優れた動作クローニングのための将来の研究の方向性への影響について議論します。
要約(オリジナル)
We propose a theoretical framework for studying behavior cloning of complex expert demonstrations using generative modeling. Our framework invokes low-level controllers – either learned or implicit in position-command control – to stabilize imitation around expert demonstrations. We show that with (a) a suitable low-level stability guarantee and (b) a powerful enough generative model as our imitation learner, pure supervised behavior cloning can generate trajectories matching the per-time step distribution of essentially arbitrary expert trajectories in an optimal transport cost. Our analysis relies on a stochastic continuity property of the learned policy we call ‘total variation continuity’ (TVC). We then show that TVC can be ensured with minimal degradation of accuracy by combining a popular data-augmentation regimen with a novel algorithmic trick: adding augmentation noise at execution time. We instantiate our guarantees for policies parameterized by diffusion models and prove that if the learner accurately estimates the score of the (noise-augmented) expert policy, then the distribution of imitator trajectories is close to the demonstrator distribution in a natural optimal transport distance. Our analysis constructs intricate couplings between noise-augmented trajectories, a technique that may be of independent interest. We conclude by empirically validating our algorithmic recommendations, and discussing implications for future research directions for better behavior cloning with generative modeling.
arxiv情報
| 著者 | Adam Block,Ali Jadbabaie,Daniel Pfrommer,Max Simchowitz,Russ Tedrake |
| 発行日 | 2023-10-24 17:16:16+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google