Variational Distillation of Diffusion Policies into Mixture of Experts

要約

この研究では、変分拡散蒸留 (VDD) を導入します。これは、変分推論を通じてノイズ除去拡散ポリシーを専門家混合 (MoE) に蒸留する新しい方法です。
拡散モデルは、複雑なマルチモーダル分布を正確に学習して表現する優れた能力により、生成モデリングにおける現在の最先端技術です。
この機能により、拡散モデルは人間の行動に固有の多様性を再現できるため、人間のデモンストレーションからの学習 (LfD) などの行動学習で推奨されるモデルになります。
ただし、拡散モデルには、尤度の扱いが難しいことや、反復サンプリング プロセスによる推論時間が長いことなど、いくつかの欠点があります。
特に推論時間は、ロボット制御などのリアルタイム アプリケーションにとって大きな課題となります。
対照的に、MoE は複雑な分布を表現する能力を維持しながら前述の問題に効果的に対処しますが、訓練が難しいことで知られています。
VDD は、事前トレーニングされた拡散モデルを MoE モデルに抽出する最初の方法であり、拡散モデルの表現力と混合モデルの利点を組み合わせます。
具体的には、VDD は変分目標の分解上限を活用し、各専門家の個別のトレーニングを可能にし、MoE にとって堅牢な最適化スキームを実現します。
VDD は、9 つ​​の複雑な行動学習タスクにわたって、i) 拡散モデルによって学習された複雑な分布を正確に抽出できること、ii) 既存の最先端の抽出手法を上回るパフォーマンスを達成できること、および iii) 従来の MoE トレーニング手法を上回ることができることを実証しています。

要約(オリジナル)

This work introduces Variational Diffusion Distillation (VDD), a novel method that distills denoising diffusion policies into Mixtures of Experts (MoE) through variational inference. Diffusion Models are the current state-of-the-art in generative modeling due to their exceptional ability to accurately learn and represent complex, multi-modal distributions. This ability allows Diffusion Models to replicate the inherent diversity in human behavior, making them the preferred models in behavior learning such as Learning from Human Demonstrations (LfD). However, diffusion models come with some drawbacks, including the intractability of likelihoods and long inference times due to their iterative sampling process. The inference times, in particular, pose a significant challenge to real-time applications such as robot control. In contrast, MoEs effectively address the aforementioned issues while retaining the ability to represent complex distributions but are notoriously difficult to train. VDD is the first method that distills pre-trained diffusion models into MoE models, and hence, combines the expressiveness of Diffusion Models with the benefits of Mixture Models. Specifically, VDD leverages a decompositional upper bound of the variational objective that allows the training of each expert separately, resulting in a robust optimization scheme for MoEs. VDD demonstrates across nine complex behavior learning tasks, that it is able to: i) accurately distill complex distributions learned by the diffusion model, ii) outperform existing state-of-the-art distillation methods, and iii) surpass conventional methods for training MoE.

arxiv情報

著者 Hongyi Zhou,Denis Blessing,Ge Li,Onur Celik,Xiaogang Jia,Gerhard Neumann,Rudolf Lioutikov
発行日 2024-06-18 12:15:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク