要約
多くの実世界のアプリケーションでは、さまざまな外因的要因により状態が変化する可能性がある環境で、エージェントは逐次的な意思決定を行う必要があります。
これらの非定常環境は、通常は定常的なダイナミクスを前提とする従来の意思決定モデルに重大な課題をもたらします。
非定常マルコフ決定プロセス (NS-MDP) は、このような変化する条件下での決定問題をモデル化して解決するためのフレームワークを提供します。
しかし、標準化されたベンチマークやシミュレーション ツールが不足しているため、この分野の体系的な評価と進歩が妨げられています。
NS-MDP 向けに明示的に設計された最初のシミュレーション ツールキットである NS-Gym を、人気のある Gymnasium フレームワーク内に統合して紹介します。
NS-Gym では、非定常性を特徴付ける環境パラメータの進化をエージェントの意思決定モジュールから分離し、動的環境へのモジュール式で柔軟な適応を可能にします。
我々は、この分野におけるこれまでの研究をレビューし、NS-MDP における主要な問題の特性とタイプをカプセル化したツールキットを提示します。
このツールキットは、非定常条件下でのアルゴリズムの一貫性と再現性の評価を可能にする一連の標準化されたインターフェイスとベンチマーク問題を開発する最初の取り組みです。
また、NS-Gym を使用した NS-MDP に関する以前の研究からの 6 つのアルゴリズム アプローチのベンチマークも行います。
私たちのビジョンは、NS-Gym を使用して研究者が意思決定アルゴリズムの非定常条件への適応性と堅牢性を評価できるようにすることです。
要約(オリジナル)
In many real-world applications, agents must make sequential decisions in environments where conditions are subject to change due to various exogenous factors. These non-stationary environments pose significant challenges to traditional decision-making models, which typically assume stationary dynamics. Non-stationary Markov decision processes (NS-MDPs) offer a framework to model and solve decision problems under such changing conditions. However, the lack of standardized benchmarks and simulation tools has hindered systematic evaluation and advance in this field. We present NS-Gym, the first simulation toolkit designed explicitly for NS-MDPs, integrated within the popular Gymnasium framework. In NS-Gym, we segregate the evolution of the environmental parameters that characterize non-stationarity from the agent’s decision-making module, allowing for modular and flexible adaptations to dynamic environments. We review prior work in this domain and present a toolkit encapsulating key problem characteristics and types in NS-MDPs. This toolkit is the first effort to develop a set of standardized interfaces and benchmark problems to enable consistent and reproducible evaluation of algorithms under non-stationary conditions. We also benchmark six algorithmic approaches from prior work on NS-MDPs using NS-Gym. Our vision is that NS-Gym will enable researchers to assess the adaptability and robustness of their decision-making algorithms to non-stationary conditions.
arxiv情報
著者 | Nathaniel S. Keplinger,Baiting Luo,Iliyas Bektas,Yunuo Zhang,Kyle Hollins Wray,Aron Laszka,Abhishek Dubey,Ayan Mukhopadhyay |
発行日 | 2025-01-16 16:38:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google