Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching

要約

勾配ベースの手法により、高次元での効率的な検索機能が可能になります。
ただし、オフラインの強化学習 (RL) や模倣学習 (IL) などのオフラインの最適化パラダイムにそれらを効果的に適用するには、不確実性の推定が、不確実性を最小化しようとする一次手法とどのように相互作用するかをより慎重に検討する必要があります。
私たちは、データまでの平滑化された距離を不確実性メトリクスとして研究し、これには 2 つの有益な特性があると主張しています。(i) 不確実性を最小限に抑えようとする勾配ベースの手法で、平滑化がアニーリングされるときにデータへの反復を実行できるようになり、(ii) 平滑化が容易になります。
リプシッツ定数を使用したモデルのバイアスの分析。
データまでの距離をオンラインで計算するにはコストがかかる場合があるため、この計算を償却する必要がある設定を検討します。
ただし、距離を学習する代わりに、一次オプティマイザーのオラクルとしてその勾配を直接学習することを提案します。
これらの勾配は、データまでの距離とデータの尤度の等価性を利用するスコアマッチング手法で効率的に学習できることを示します。
この洞察を使用して、スコアガイド付き計画 (SGP) を提案します。これは、スコア マッチングを利用して、ゼロ次の手法では拡張できず、アンサンブルが拡張できなかった高次元の問題で 1 次の計画を可能にする、オフライン RL の計画アルゴリズムです。
極小値を超えることができません。
ウェブサイト: https://sites.google.com/view/score-guided-planning/home

要約(オリジナル)

Gradient-based methods enable efficient search capabilities in high dimensions. However, in order to apply them effectively in offline optimization paradigms such as offline Reinforcement Learning (RL) or Imitation Learning (IL), we require a more careful consideration of how uncertainty estimation interplays with first-order methods that attempt to minimize them. We study smoothed distance to data as an uncertainty metric, and claim that it has two beneficial properties: (i) it allows gradient-based methods that attempt to minimize uncertainty to drive iterates to data as smoothing is annealed, and (ii) it facilitates analysis of model bias with Lipschitz constants. As distance to data can be expensive to compute online, we consider settings where we need amortize this computation. Instead of learning the distance however, we propose to learn its gradients directly as an oracle for first-order optimizers. We show these gradients can be efficiently learned with score-matching techniques by leveraging the equivalence between distance to data and data likelihood. Using this insight, we propose Score-Guided Planning (SGP), a planning algorithm for offline RL that utilizes score-matching to enable first-order planning in high-dimensional problems, where zeroth-order methods were unable to scale, and ensembles were unable to overcome local minima. Website: https://sites.google.com/view/score-guided-planning/home

arxiv情報

著者 H. J. Terry Suh,Glen Chou,Hongkai Dai,Lujie Yang,Abhishek Gupta,Russ Tedrake
発行日 2023-10-17 03:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク