Autoregressive Policy Optimization for Constrained Allocation Tasks

要約

割り当てタスクは、タイム ステップごとに限られた量のリソースを一連のエンティティに割り当てる必要がある問題のクラスを表します。
このタスクの主な例としては、ポートフォリオの最適化やサーバー間での計算ワークロードの分散などが挙げられます。
通常、割り当てタスクは、常に厳密に満たさなければならない実際的な要件を記述する線形制約によって拘束されます。
たとえば、ポートフォリオの最適化では、投資家は、どの投資期間においても資金の 30% 未満を特定の産業セクターに割り当てることが義務付けられる場合があります。
このような制約により、許可される割り当てのアクション スペースが複雑な方法で制限されるため、制約違反を回避するポリシーの学習が困難になります。
この論文では、エンティティごとに割り当てを順次サンプリングする自己回帰プロセスに基づく、制約付き割り当てタスクの新しい方法を提案します。
さらに、連続サンプリングによって引き起こされる初期バイアスに対抗するための新しいバイアス解除メカニズムを導入します。
ポートフォリオの最適化、計算ワークロードの分散、および合成割り当てベンチマークという 3 つの異なる制約付き割り当てタスクにおいて、さまざまな制約強化学習 (CRL) 手法と比較して、このアプローチの優れたパフォーマンスを実証します。
私たちのコードはhttps://github.com/niklasdbs/paspoから入手できます。

要約(オリジナル)

Allocation tasks represent a class of problems where a limited amount of resources must be allocated to a set of entities at each time step. Prominent examples of this task include portfolio optimization or distributing computational workloads across servers. Allocation tasks are typically bound by linear constraints describing practical requirements that have to be strictly fulfilled at all times. In portfolio optimization, for example, investors may be obligated to allocate less than 30\% of the funds into a certain industrial sector in any investment period. Such constraints restrict the action space of allowed allocations in intricate ways, which makes learning a policy that avoids constraint violations difficult. In this paper, we propose a new method for constrained allocation tasks based on an autoregressive process to sequentially sample allocations for each entity. In addition, we introduce a novel de-biasing mechanism to counter the initial bias caused by sequential sampling. We demonstrate the superior performance of our approach compared to a variety of Constrained Reinforcement Learning (CRL) methods on three distinct constrained allocation tasks: portfolio optimization, computational workload distribution, and a synthetic allocation benchmark. Our code is available at: https://github.com/niklasdbs/paspo

arxiv情報

著者 David Winkel,Niklas Strauß,Maximilian Bernhard,Zongyue Li,Thomas Seidl,Matthias Schubert
発行日 2024-09-27 13:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク