要約
この研究では、過去のデータの関連性と量がデータ駆動型ポリシーのパフォーマンスにどのような影響を与えるかを研究するために、状況に応じた意思決定のフレームワークを探索します。
私たちは、不確実な需要に直面して、意思決定者が未成年コストと超過コストの間でトレードオフを行う必要がある、状況に応じたニュースベンダーの問題を分析します。
私たちは、「近くの」コンテキストで観察された過去の需要が近くの分布から来ているという設定を考慮し、コンテキスト依存の最悪の場合の予想されるリグアランスの概念を通じてデータ駆動型アルゴリズムのパフォーマンスを分析します。
私たちは、文脈空間における類似性に応じて過去のデータを重み付けする、広範なクラスの加重経験的リスク最小化 (WERM) ポリシーを分析します。
このクラスには、ERM、k-最近傍法、カーネルベースのポリシーなどの従来のポリシーが含まれます。
私たちの主な方法論的貢献は、特定のコンテキスト構成における WERM ポリシーの最悪の場合のリアクションを正確に特徴付けることです。
私たちの知る限り、これは、過去の文献が濃度不平等による上限に焦点を当てていたもので、状況に応じた意思決定問題における厳密なパフォーマンス保証についての初めての理解を提供します。
代わりに、最適化アプローチを採用し、最悪の場合の分布に対する無限次元の最適化問題を単純な直線探索に削減できるニュースベンダー損失関数の構造を分離します。
これにより、以前の汎用の限界によって難読化されていた基本的な洞察を明らかにできるようになります。
実際に保証されているパフォーマンスをコンテキストの関数として特徴付け、アルゴリズムの学習曲線に関する詳細な洞察も得ます。
要約(オリジナル)
In this work, we explore a framework for contextual decision-making to study how the relevance and quantity of past data affects the performance of a data-driven policy. We analyze a contextual Newsvendor problem in which a decision-maker needs to trade-off between an underage and an overage cost in the face of uncertain demand. We consider a setting in which past demands observed under “close by” contexts come from close by distributions and analyze the performance of data-driven algorithms through a notion of context-dependent worst-case expected regret. We analyze the broad class of Weighted Empirical Risk Minimization (WERM) policies which weigh past data according to their similarity in the contextual space. This class includes classical policies such as ERM, k-Nearest Neighbors and kernel-based policies. Our main methodological contribution is to characterize exactly the worst-case regret of any WERM policy on any given configuration of contexts. To the best of our knowledge, this provides the first understanding of tight performance guarantees in any contextual decision-making problem, with past literature focusing on upper bounds via concentration inequalities. We instead take an optimization approach, and isolate a structure in the Newsvendor loss function that allows to reduce the infinite-dimensional optimization problem over worst-case distributions to a simple line search. This in turn allows us to unveil fundamental insights that were obfuscated by previous general-purpose bounds. We characterize actual guaranteed performance as a function of the contexts, as well as granular insights on the learning curve of algorithms.
arxiv情報
著者 | Omar Besbes,Will Ma,Omar Mouchtaki |
発行日 | 2023-06-23 17:22:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google