要約
大規模な離散アクション空間は依然として強化学習手法の中心的な課題です。
このようなスペースは、推奨システム、複数ステップの計画、在庫補充など、多くの実世界のアプリケーションで発生します。
連続プロキシの離散アクションへのマッピングは、大規模な離散アクション空間を処理するための有望なパラダイムです。
既存の連続から離散へのマッピング アプローチには、静的な事前定義された近傍での離散隣接アクションの検索が含まれており、アクション空間全体にわたる離散隣接アクションの検索が必要です。
したがって、スケーラビリティの問題は依然として残ります。
この欠点を軽減するために、我々は、連続プロキシをマッピングするための離散近傍を動的に構築する新しい動的近傍構築 (DNC) 手法を提案します。これにより、基礎となるアクション空間が効率的に活用されます。
3 つの異なる環境にわたる大規模な離散アクション スペース向けに設計された 3 つの最先端のアプローチに対してベンチマークを行うことにより、私たちの手法の堅牢性を実証します。
私たちの結果は、DNC が最先端のアプローチに匹敵するか、それを上回るパフォーマンスを示しながら、計算効率が高いことを示しています。
さらに、私たちの方法は、これまでのところ既存の方法論では計算的に扱いにくいアクション空間にまで拡張できます。
要約(オリジナル)
Large discrete action spaces remain a central challenge for reinforcement learning methods. Such spaces are encountered in many real-world applications, e.g., recommender systems, multi-step planning, and inventory replenishment. The mapping of continuous proxies to discrete actions is a promising paradigm for handling large discrete action spaces. Existing continuous-to-discrete mapping approaches involve searching for discrete neighboring actions in a static pre-defined neighborhood, which requires discrete neighbor lookups across the entire action space. Hence, scalability issues persist. To mitigate this drawback, we propose a novel Dynamic Neighborhood Construction (DNC) method, which dynamically constructs a discrete neighborhood to map the continuous proxy, thus efficiently exploiting the underlying action space. We demonstrate the robustness of our method by benchmarking it against three state-of-the-art approaches designed for large discrete action spaces across three different environments. Our results show that DNC matches or outperforms state-of-the-art approaches while being more computationally efficient. Furthermore, our method scales to action spaces that so far remained computationally intractable for existing methodologies.
arxiv情報
著者 | Fabian Akkerman,Julius Luy,Wouter van Heeswijk,Maximilian Schiffer |
発行日 | 2023-05-31 14:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google