要約
オフライン計画では、ポリシーを最初から学習しようとするため、サンプリング効率が悪くて苦労することがよくあります。
特に拡散モデルの場合、このようなコールド スタートの実践は、トレーニングとサンプリングの両方が非常に高価になることを意味します。
私たちは、特定の環境制約事前分布や安価に入手可能なポリシーにより、最初から学習する必要がなくなると仮説を立て、そのような事前分布を学習プロセスに組み込む方法を模索します。
これを達成するために、画像間の設定からシュレディンガー ブリッジ定式化のバリエーションを借用し、それを計画タスクに適用します。
いくつかの計画タスクのパフォーマンスを調査し、そのパフォーマンスを DDPM 定式化と比較します。
この作業のコードは https://github.com/adrshsrvstv/bridge_diffusion_planning で入手できます。
要約(オリジナル)
Offline planning often struggles with poor sampling efficiency as it tries to learn policies from scratch. Especially with diffusion models, such cold start practices mean that both training and sampling become very expensive. We hypothesize that certain environment constraint priors or cheaply available policies make it unnecessary to learn from scratch, and explore a way to incorporate such priors in the learning process. To achieve that, we borrow a variation of the Schr\’odinger bridge formulation from the image-to-image setting and apply it to planning tasks. We study the performance on some planning tasks and compare the performance against the DDPM formulation. The code for this work is available at https://github.com/adrshsrvstv/bridge_diffusion_planning.
arxiv情報
著者 | Adarsh Srivastava |
発行日 | 2024-06-18 10:04:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google