Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces

要約

多くの強化学習 (RL) アプリケーションでは、望ましい状態に到達し、制御されたシステムを望ましい状態の周囲の許容領域内に無期限に維持するポリシーが必要です。
この後者の目的は安​​定性と呼ばれ、状態空間が無制限である場合、つまり状態が互いに任意に離れたり、エージェントが望ましい状態から遠く離れたりする可能性がある場合に特に重要です。
たとえば、待機中のジョブのキューが際限なく増大する可能性がある確率的キューイング ネットワークでは、望ましい状態はキューの長さがすべてゼロになります。
ここで、安定したポリシーではキューの長さが有限であることが保証され、最適なポリシーではキューの長さが最小限に抑えられます。
最適なポリシーも安定しているため、RL アルゴリズムが暗黙的に安定したポリシーを提供してくれると期待できます。
しかし、今回の研究では、オンライントレーニング中に望ましい状態までの距離を直接最小化する深層学習アルゴリズムは、多くの場合、不安定なポリシー、つまり望ましい状態から遠く離れたポリシーをもたらすことがわかりました。
この不安定性は、不安定化行動に対する信用度の割り当てが不十分であることが原因であると考えられます。
次に、2 つのアイデアに基づくアプローチを紹介します。1) リアプノフ ベースのコスト形成手法と、2) 境界のない状態空間への状態変換です。
私たちはさまざまなキューイング ネットワークと交通信号制御の問題について実証研究を実施し、遷移ダイナミクスの知識を備えた強力なベースラインに対して私たちのアプローチが競合的に機能することを発見しました。

要約(オリジナル)

In many reinforcement learning (RL) applications, we want policies that reach desired states and then keep the controlled system within an acceptable region around the desired states over an indefinite period of time. This latter objective is called stability and is especially important when the state space is unbounded, such that the states can be arbitrarily far from each other and the agent can drift far away from the desired states. For example, in stochastic queuing networks, where queues of waiting jobs can grow without bound, the desired state is all-zero queue lengths. Here, a stable policy ensures queue lengths are finite while an optimal policy minimizes queue lengths. Since an optimal policy is also stable, one would expect that RL algorithms would implicitly give us stable policies. However, in this work, we find that deep RL algorithms that directly minimize the distance to the desired state during online training often result in unstable policies, i.e., policies that drift far away from the desired state. We attribute this instability to poor credit-assignment for destabilizing actions. We then introduce an approach based on two ideas: 1) a Lyapunov-based cost-shaping technique and 2) state transformations to the unbounded state space. We conduct an empirical study on various queueing networks and traffic signal control problems and find that our approach performs competitively against strong baselines with knowledge of the transition dynamics.

arxiv情報

著者 Brahma S. Pavse,Matthew Zurek,Yudong Chen,Qiaomin Xie,Josiah P. Hanna
発行日 2024-02-13 17:32:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク