Natural Actor-Critic for Robust Reinforcement Learning with Function Approximation

要約

私たちは、トレーニング シミュレーターとテスト環境の間のモデルの不一致に対して堅牢な、優れたパフォーマンスのポリシーを決定することを目的として、ロバストな強化学習 (RL) を研究しています。
以前のポリシーベースの堅牢な RL アルゴリズムは、主に、堅牢なポリシー評価を促進する不確実性セットの下での表形式の設定に焦点を当てていましたが、状態の数が増加すると扱いにくくなります。
この目的を達成するために、我々は 2 つの新しい不確実性セットの定式化を提案します。1 つは二重サンプリングに基づいており、もう 1 つは整数確率計量に基づいています。
どちらも、シミュレーターにしかアクセスできない場合でも、大規模なロバストな RL を扱いやすくします。
我々は、新しい不確実性セットを組み込み、関数近似を採用する、堅牢なナチュラル アクター クリティカル (RNAC) アプローチを提案します。
提案された RNAC アルゴリズムに対して、関数近似誤差内で最適なロバストなポリシーへの有限時間収束保証を提供します。
最後に、複数の MuJoCo 環境および現実世界の TurtleBot ナビゲーション タスクにおいて、提案した RNAC アプローチによって学習されたポリシーの堅牢なパフォーマンスを実証します。

要約(オリジナル)

We study robust reinforcement learning (RL) with the goal of determining a well-performing policy that is robust against model mismatch between the training simulator and the testing environment. Previous policy-based robust RL algorithms mainly focus on the tabular setting under uncertainty sets that facilitate robust policy evaluation, but are no longer tractable when the number of states scales up. To this end, we propose two novel uncertainty set formulations, one based on double sampling and the other on an integral probability metric. Both make large-scale robust RL tractable even when one only has access to a simulator. We propose a robust natural actor-critic (RNAC) approach that incorporates the new uncertainty sets and employs function approximation. We provide finite-time convergence guarantees for the proposed RNAC algorithm to the optimal robust policy within the function approximation error. Finally, we demonstrate the robust performance of the policy learned by our proposed RNAC approach in multiple MuJoCo environments and a real-world TurtleBot navigation task.

arxiv情報

著者 Ruida Zhou,Tao Liu,Min Cheng,Dileep Kalathil,P. R. Kumar,Chao Tian
発行日 2023-07-17 22:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, math.OC パーマリンク