Online Learning with Costly Features in Non-stationary Environments

要約

長期的な報酬を最大化することは、一連の意思決定問題における主な目標です。
既存の方法の大部分は、学習エージェントが決定を下す前にすべての特徴の状態を観察できるように、副次的な情報が自由に利用できることを前提としています。
ただし、現実の問題では、有益な情報の収集にはコストがかかることがよくあります。
これは、意思決定戦略を改善するには、個々のアームの報酬に加えて、フィーチャの状態の観察を学習することが不可欠であることを意味します。
この問題は、報酬とコストの分布が時間の経過とともに急激に変化する非定常環境ではさらに悪化します。
前述の二重学習の問題に対処するために、コンテキスト バンディット設定を拡張し、エージェントが機能の状態のサブセットを観察できるようにします。
目的は、長期的な平均利益、つまり累積報酬と平均支払コストの差を最大化することです。
したがって、エージェントは、情報取得コストを最小限に抑えることと、取得した情報を使用して意思決定プロセスを改善することとの間のトレードオフに直面することになります。
この目的を達成するために、私たちは時間内に線形未満の後悔を保証するアルゴリズムを開発します。
数値結果は、現実世界のシナリオにおける私たちの提案したポリシーの優位性を示しています。

要約(オリジナル)

Maximizing long-term rewards is the primary goal in sequential decision-making problems. The majority of existing methods assume that side information is freely available, enabling the learning agent to observe all features’ states before making a decision. In real-world problems, however, collecting beneficial information is often costly. That implies that, besides individual arms’ reward, learning the observations of the features’ states is essential to improve the decision-making strategy. The problem is aggravated in a non-stationary environment where reward and cost distributions undergo abrupt changes over time. To address the aforementioned dual learning problem, we extend the contextual bandit setting and allow the agent to observe subsets of features’ states. The objective is to maximize the long-term average gain, which is the difference between the accumulated rewards and the paid costs on average. Therefore, the agent faces a trade-off between minimizing the cost of information acquisition and possibly improving the decision-making process using the obtained information. To this end, we develop an algorithm that guarantees a sublinear regret in time. Numerical results demonstrate the superiority of our proposed policy in a real-world scenario.

arxiv情報

著者 Saeed Ghoorchian,Evgenii Kortukov,Setareh Maghsudi
発行日 2023-07-18 16:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク