Online Decision Making with History-Average Dependent Costs (Extended)

要約

多くのオンラインでの逐次意思決定シナリオでは、学習者の選択は現在のコストだけでなく将来のコストにも影響します。
この研究では、コストが歴史期間にわたる過去の決定の時間平均に依存する、そのような状況の 1 つの特定のケースを検討します。
私たちはまず、歴史に依存するコストに関するこの問題を、段階的な制約の下での意思決定の問題として再構成しました。
これに取り組むために、私たちは新しい Follow-The-Adaptive- Regularized-Leader (FTARL) アルゴリズムを提案します。
私たちの革新的なアルゴリズムには、過去の決定に明示的に依存する適応正則化機能が組み込まれており、段階的な制約を強制できると同時に、厳しいリグレス限界を確立することができます。
また、問題に対する後悔のないアルゴリズムの設計における履歴期間の長さの影響についても議論し、それが完全な学習期間である場合の不可能な結果を​​提示します。

要約(オリジナル)

In many online sequential decision-making scenarios, a learner’s choices affect not just their current costs but also the future ones. In this work, we look at one particular case of such a situation where the costs depend on the time average of past decisions over a history horizon. We first recast this problem with history dependent costs as a problem of decision making under stage-wise constraints. To tackle this, we then propose the novel Follow-The-Adaptively-Regularized-Leader (FTARL) algorithm. Our innovative algorithm incorporates adaptive regularizers that depend explicitly on past decisions, allowing us to enforce stage-wise constraints while simultaneously enabling us to establish tight regret bounds. We also discuss the implications of the length of history horizon on design of no-regret algorithms for our problem and present impossibility results when it is the full learning horizon.

arxiv情報

著者 Vijeth Hebbar,Cedric Langbort
発行日 2023-12-11 18:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY パーマリンク