Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching

要約

オフライン強化学習 (RL) や模倣学習 (IL) などのオフライン最適化パラダイムでは、ポリシー検索アルゴリズムでオフライン データを利用できますが、分布シフトの課題を回避するには不確実性を慎重に組み込む必要があります。
勾配ベースのポリシー検索手法は、高次元での有効性により有望な方向性です。
ただし、これらの方法が不確実性の推定とどのように相互作用するかについては、より慎重に検討する必要があります。
不確実性メトリクスが勾配ベースの最適化に適しているためには、(i) 不確実性が勾配で最小化されたときに安定してデータに収束し、(ii) 真の不確実性が過小評価される傾向がない必要があると私たちは主張します。
データまでの平滑化された距離を指標として調査し、それが安定してデータに収束するだけでなく、リプシッツ定数を使用してモデルのバイアスを分析できることを示します。
さらに、平滑化されたデータまでの距離とデータの尤度の等価性を確立します。これにより、スコアマッチング手法を使用してデータまでの距離の勾配を学習できるようになります。
重要なのは、データの尤度を最大化するオフライン モデルベースのポリシー検索問題には尤度の値が必要ないことを示しています。
対数尤度の勾配 (スコア関数) のみです。
この洞察を使用して、スコアガイド付き計画 (SGP) を提案します。これは、スコア マッチングを利用して、ゼロ次の手法では拡張できず、アンサンブルが拡張できなかった高次元の問題で 1 次の計画を可能にする、オフライン RL の計画アルゴリズムです。
極小値を超えることができません。
ウェブサイト: https://sites.google.com/view/score-guided-planning/home

要約(オリジナル)

Offline optimization paradigms such as offline Reinforcement Learning (RL) or Imitation Learning (IL) allow policy search algorithms to make use of offline data, but require careful incorporation of uncertainty in order to circumvent the challenges of distribution shift. Gradient-based policy search methods are a promising direction due to their effectiveness in high dimensions; however, we require a more careful consideration of how these methods interplay with uncertainty estimation. We claim that in order for an uncertainty metric to be amenable for gradient-based optimization, it must be (i) stably convergent to data when uncertainty is minimized with gradients, and (ii) not prone to underestimation of true uncertainty. We investigate smoothed distance to data as a metric, and show that it not only stably converges to data, but also allows us to analyze model bias with Lipschitz constants. Moreover, we establish an equivalence between smoothed distance to data and data likelihood, which allows us to use score-matching techniques to learn gradients of distance to data. Importantly, we show that offline model-based policy search problems that maximize data likelihood do not require values of likelihood; but rather only the gradient of the log likelihood (the score function). Using this insight, we propose Score-Guided Planning (SGP), a planning algorithm for offline RL that utilizes score-matching to enable first-order planning in high-dimensional problems, where zeroth-order methods were unable to scale, and ensembles were unable to overcome local minima. Website: https://sites.google.com/view/score-guided-planning/home

arxiv情報

著者 H. J. Terry Suh,Glen Chou,Hongkai Dai,Lujie Yang,Abhishek Gupta,Russ Tedrake
発行日 2023-06-24 23:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク