Parameterized Projected Bellman Operator

要約

近似値反復 (AVI) は、最適値関数の近似値を取得することを目的とした強化学習 (RL) 用のアルゴリズムのファミリーです。
一般に、AVI アルゴリズムは反復手順を実装しており、各ステップは (i) ベルマン演算子の適用、および (ii) 考慮された関数空間への射影ステップで構成されます。
悪名高いことでは、Bellman オペレーターは、その動作を強力に決定する遷移サンプルを利用します。これは、情報のないサンプルにより、無視できる更新や長い迂回が生じる可能性があり、その悪影響は計算集約的な投影ステップによってさらに悪化します。
これらの問題に対処するために、AVI アプローチのようにサンプルを通じてベルマン オペレーターを推定するのではなく、ベルマン オペレーターの近似バージョンの学習に基づく新しい代替アプローチを提案します。
このようにして、(i) 遷移サンプル全体で一般化することができ、(ii) 計算量の多い投影ステップを回避することができます。
このため、新しい演算子を投影ベルマン演算子 (PBO) と呼びます。
一般的な逐次的意思決定問題に対する PBO を学習するための最適化問題を定式化し、RL 問題の 2 つの代表的なクラスでその特性を理論的に分析します。
さらに、AVI のレンズの下でアプローチを理論的に研究し、ニューラル ネットワークのパラメーター化を活用してオフラインおよびオンライン設定で PBO を学習するためのアルゴリズム実装を考案します。
最後に、PBO のメリットを実証的に示します。
いくつかの RL 問題の常連のベルマン オペレーター。

要約(オリジナル)

Approximate value iteration (AVI) is a family of algorithms for reinforcement learning (RL) that aims to obtain an approximation of the optimal value function. Generally, AVI algorithms implement an iterated procedure where each step consists of (i) an application of the Bellman operator and (ii) a projection step into a considered function space. Notoriously, the Bellman operator leverages transition samples, which strongly determine its behavior, as uninformative samples can result in negligible updates or long detours, whose detrimental effects are further exacerbated by the computationally intensive projection step. To address these issues, we propose a novel alternative approach based on learning an approximate version of the Bellman operator rather than estimating it through samples as in AVI approaches. This way, we are able to (i) generalize across transition samples and (ii) avoid the computationally intensive projection step. For this reason, we call our novel operator projected Bellman operator (PBO). We formulate an optimization problem to learn PBO for generic sequential decision-making problems, and we theoretically analyze its properties in two representative classes of RL problems. Furthermore, we theoretically study our approach under the lens of AVI and devise algorithmic implementations to learn PBO in offline and online settings by leveraging neural network parameterizations. Finally, we empirically showcase the benefits of PBO w.r.t. the regular Bellman operator on several RL problems.

arxiv情報

著者 Théo Vincent,Alberto Maria Metelli,Boris Belousov,Jan Peters,Marcello Restelli,Carlo D’Eramo
発行日 2024-02-12 15:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク