要約
強化学習の領域における継続学習の問題は、非定常強化学習と呼ばれることが多く、強化学習の応用に対する重要な課題として認識されています。
私たちは最悪の場合の複雑さの結果を証明しましたが、これはこの課題を捉えていると考えられます。強化学習問題における単一の状態とアクションのペアの確率や報酬を変更するには、状態の数とほぼ同じ時間が必要です。
強い指数関数的時間仮説 (SETH) が偽でない限り、値関数を最新の状態に保ちます。
SETH は、P $\neq$ NP 予想の強化として広く受け入れられています。
強化学習の現在のアプリケーションにおける状態の数は、通常、天文学的なものであることを思い出してください。
対照的に、新しい状態とアクションのペアを $\textit{adding}$ するだけで、実装がかなり簡単になることがわかります。
要約(オリジナル)
The problem of continual learning in the domain of reinforcement learning, often called non-stationary reinforcement learning, has been identified as an important challenge to the application of reinforcement learning. We prove a worst-case complexity result, which we believe captures this challenge: Modifying the probabilities or the reward of a single state-action pair in a reinforcement learning problem requires an amount of time almost as large as the number of states in order to keep the value function up to date, unless the strong exponential time hypothesis (SETH) is false; SETH is a widely accepted strengthening of the P $\neq$ NP conjecture. Recall that the number of states in current applications of reinforcement learning is typically astronomical. In contrast, we show that just $\textit{adding}$ a new state-action pair is considerably easier to implement.
arxiv情報
著者 | Christos Papadimitriou,Binghui Peng |
発行日 | 2023-07-13 16:25:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google