要約
この論文では、強化学習の問題を解決するための新しい理論的アプローチであるスコアライフ プログラミングを紹介します。
古典的な動的計画法ベースの方法とは対照的に、私たちの方法は非定常ポリシー関数を検索でき、与えられた状態から最適な無限の水平線アクション シーケンスを直接計算できます。
私たちの方法の中心的なアイデアは、無限の水平線アクション シーケンスと有界区間の実数の間のマッピングを構築することです。
この構築により、ポリシー関数を必要とせずに、最適な無限水平線アクション シーケンスを直接計算するための最適化問題を定式化することができます。
私たちのアプローチを非線形最適制御問題に適用することで、その有効性を実証します。
全体として、私たちの貢献は、強化学習の問題を定式化して解決するための新しい理論的フレームワークを提供します。
要約(オリジナル)
In this paper, we present Score-life programming, a novel theoretical approach for solving reinforcement learning problems. In contrast with classical dynamic programming-based methods, our method can search over non-stationary policy functions, and can directly compute optimal infinite horizon action sequences from a given state. The central idea in our method is the construction of a mapping between infinite horizon action sequences and real numbers in a bounded interval. This construction enables us to formulate an optimization problem for directly computing optimal infinite horizon action sequences, without requiring a policy function. We demonstrate the effectiveness of our approach by applying it to nonlinear optimal control problems. Overall, our contributions provide a novel theoretical framework for formulating and solving reinforcement learning problems.
arxiv情報
著者 | Abhinav Muraleedharan |
発行日 | 2023-06-26 19:38:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google