要約
強化学習の問題には、複数のサブアクションの同時実行から生じる大きなアクション スペースが含まれることが多く、その結果、組み合わせアクション スペースが生じます。
サブアクションの数とこれらのサブアクション間の依存関係に応じてアクション空間のサイズが指数関数的に増加するため、組み合わせアクション空間での学習は困難です。
オフライン設定では、データが限られ最適化されていないため、この課題はさらに悪化します。
組み合わせ空間におけるオフライン学習の現在の方法は、サブアクションの独立性を仮定することで問題を単純化します。
我々は、サブアクションの依存関係を効果的に捉え、各タイムステップでアクションの小さなサブセットのみを評価することを学習することで、大規模な組み合わせ空間にスケーリングする分岐値推定 (BVE) を提案します。
私たちの実験では、BVE がさまざまなアクション スペース サイズにわたって最先端の方法よりも優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
Reinforcement learning problems often involve large action spaces arising from the simultaneous execution of multiple sub-actions, resulting in combinatorial action spaces. Learning in combinatorial action spaces is difficult due to the exponential growth in action space size with the number of sub-actions and the dependencies among these sub-actions. In offline settings, this challenge is compounded by limited and suboptimal data. Current methods for offline learning in combinatorial spaces simplify the problem by assuming sub-action independence. We propose Branch Value Estimation (BVE), which effectively captures sub-action dependencies and scales to large combinatorial spaces by learning to evaluate only a small subset of actions at each timestep. Our experiments show that BVE outperforms state-of-the-art methods across a range of action space sizes.
arxiv情報
著者 | Matthew Landers,Taylor W. Killian,Hugo Barnes,Thomas Hartvigsen,Afsaneh Doryab |
発行日 | 2024-10-28 15:49:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google