Is Prior-Free Black-Box Non-Stationary Reinforcement Learning Feasible?

要約

システムの非定常性に関する事前知識なしで、非定常強化学習 (NS-RL) の問題を研究します。
MASTER として知られる最先端のブラックボックス アルゴリズムが、定められた目標を達成できる条件を特定することに重点を置いて検討されています。
具体的には、MASTER の非定常性検出メカニズムが実際のホライズンの選択に対してトリガーされず、ランダムな再起動アルゴリズムと同様のパフォーマンスが得られることを証明します。
さらに、MASTER に向かうリグレスは、次数が最適であるにもかかわらず、ホライズンの値が不当に大きくなるまで、最悪の場合の線形リグレスを上回っていることを示します。
これらの観察を検証するために、MASTER は、ランダムな再起動を使用する方法や、最も迅速な変更検出を使用して再起動するその他の方法とともに、区分的に静止する多腕バンディットの特殊なケースに対してテストされます。
非定常性に関する事前知識を備えた、単純で順序最適なランダム再起動アルゴリズムがベースラインとして提案されています。
MASTER アルゴリズムの動作はシミュレーションで検証され、最も迅速な変更検出を採用した方法はより堅牢であり、MASTER やその他のランダムな再起動アプローチよりも一貫して優れていることが示されています。

要約(オリジナル)

We study the problem of Non-Stationary Reinforcement Learning (NS-RL) without prior knowledge about the system’s non-stationarity. A state-of-the-art, black-box algorithm, known as MASTER, is considered, with a focus on identifying the conditions under which it can achieve its stated goals. Specifically, we prove that MASTER’s non-stationarity detection mechanism is not triggered for practical choices of horizon, leading to performance akin to a random restarting algorithm. Moreover, we show that the regret bound for MASTER, while being order optimal, stays above the worst-case linear regret until unreasonably large values of the horizon. To validate these observations, MASTER is tested for the special case of piecewise stationary multi-armed bandits, along with methods that employ random restarting, and others that use quickest change detection to restart. A simple, order optimal random restarting algorithm, that has prior knowledge of the non-stationarity is proposed as a baseline. The behavior of the MASTER algorithm is validated in simulations, and it is shown that methods employing quickest change detection are more robust and consistently outperform MASTER and other random restarting approaches.

arxiv情報

著者 Argyrios Gerogiannis,Yu-Han Huang,Venugopal V. Veeravalli
発行日 2024-10-17 17:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク