Provable Reset-free Reinforcement Learning by No-Regret Reduction

要約

強化学習 (RL) はこれまでのところ、現実世界への応用が限られています。
1 つの重要な課題は、一般的な RL アルゴリズムが適切な初期状態をサンプリングするためにリセット メカニズムに大きく依存していることです。
これらのリセット メカニズムは、実際には人間の介入や高度に設計された環境が必要なため、実装に費用がかかります。
学習をより実践的にするために、リセットフリーの RL アルゴリズムを体系的に設計するための一般的な後悔のない削減を提案します。
私たちの削減により、リセットフリーの RL 問題が 2 プレイヤー ゲームに変わります。
この 2 人用ゲームでサブリニアのリグレスを達成することは、元の RL 問題でサブリニアのパフォーマンスリグレスとサブリニアの総リセット数の両方を持つポリシーを学習することを意味することを示します。
これは、エージェントが最終的に最適なパフォーマンスを学習し、リセットを回避することを意味します。
この削減の有効性を実証するために、線形マルコフ決定プロセスのインスタンス化を設計します。これは、最初に正しいと証明されたリセットフリーの RL アルゴリズムです。

要約(オリジナル)

Reinforcement learning (RL) so far has limited real-world applications. One key challenge is that typical RL algorithms heavily rely on a reset mechanism to sample proper initial states; these reset mechanisms, in practice, are expensive to implement due to the need for human intervention or heavily engineered environments. To make learning more practical, we propose a generic no-regret reduction to systematically design reset-free RL algorithms. Our reduction turns the reset-free RL problem into a two-player game. We show that achieving sublinear regret in this two-player game would imply learning a policy that has both sublinear performance regret and sublinear total number of resets in the original RL problem. This means that the agent eventually learns to perform optimally and avoid resets. To demonstrate the effectiveness of this reduction, we design an instantiation for linear Markov decision processes, which is the first provably correct reset-free RL algorithm.

arxiv情報

著者 Hoai-An Nguyen,Ching-An Cheng
発行日 2023-07-22 20:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク