Revisiting Energy Based Models as Policies: Ranking Noise Contrastive Estimation and Interpolating Energy Models

要約

ロボット学習パイプラインの設計上の重要な決定は、ポリシー表現の選択です。つまり、次の一連のロボット動作を生成するためにどのタイプのモデルを使用する必要があるかです。
多くのロボットタスクには固有のマルチモーダルな性質があり、生成モデリングにおける最近の成功と相まって、研究者は政策表現のための拡散モデルなどの最先端の確率モデルに注目しています。
この研究では、政策クラスとしてのエネルギーベースのモデル (EBM) の選択を再検討します。
私たちは、高次元の連続空間におけるエネルギー モデルを訓練するのは非現実的であるという一般的な民間伝承が誤りであることを示します。
私たちは、エネルギー モデルの実用的なトレーニング目標とアルゴリズムを開発します。これは、(i) ランク付けノイズ対比推定 (R-NCE)、(ii) 学習可能なネガティブ サンプラー、および (iii) 非敵対的共同トレーニングのいくつかの重要な要素を組み合わせたものです。
提案した目的関数が漸近的に一貫していることを証明し、その限界分散を定量化します。
一方で、暗黙的行動クローニング(IBC)の目的は集団レベルでも実際には偏っていることを示し、いくつかの独立したフォローアップ研究でIBCで訓練されたエネルギー政策のパフォーマンスの悪さを数学的に説明しています。
さらにアルゴリズムを拡張して、スケール変数によってインデックス付けされた EBM ファミリーを使用してこのプロセスをモデル化し、ノイズとデータを橋渡しする連続確率プロセスを学習します。
そうすることで、生成モデリングの最近の進歩の背後にある中心となる考え方が実際に EBM と互換性があることを実証します。
まとめると、私たちが提案したトレーニング アルゴリズムにより、いくつかの困難なマルチモーダル ベンチマークで拡散モデルやその他の最先端のアプローチと競合し、さらにはそれを上回る政策としてエネルギー ベースのモデルをトレーニングできるようになります。障害物回避経路計画
そしてコンタクトリッチなブロックプッシュ。

要約(オリジナル)

A crucial design decision for any robot learning pipeline is the choice of policy representation: what type of model should be used to generate the next set of robot actions? Owing to the inherent multi-modal nature of many robotic tasks, combined with the recent successes in generative modeling, researchers have turned to state-of-the-art probabilistic models such as diffusion models for policy representation. In this work, we revisit the choice of energy-based models (EBM) as a policy class. We show that the prevailing folklore — that energy models in high dimensional continuous spaces are impractical to train — is false. We develop a practical training objective and algorithm for energy models which combines several key ingredients: (i) ranking noise contrastive estimation (R-NCE), (ii) learnable negative samplers, and (iii) non-adversarial joint training. We prove that our proposed objective function is asymptotically consistent and quantify its limiting variance. On the other hand, we show that the Implicit Behavior Cloning (IBC) objective is actually biased even at the population level, providing a mathematical explanation for the poor performance of IBC trained energy policies in several independent follow-up works. We further extend our algorithm to learn a continuous stochastic process that bridges noise and data, modeling this process with a family of EBMs indexed by scale variable. In doing so, we demonstrate that the core idea behind recent progress in generative modeling is actually compatible with EBMs. Altogether, our proposed training algorithms enable us to train energy-based models as policies which compete with — and even outperform — diffusion models and other state-of-the-art approaches in several challenging multi-modal benchmarks: obstacle avoidance path planning and contact-rich block pushing.

arxiv情報

著者 Sumeet Singh,Stephen Tu,Vikas Sindhwani
発行日 2023-09-11 20:13:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク