要約
データセットを構築するときは、より多くのデータを集約するか、その品質を向上させるために、時間、お金、およびエネルギーを投資する必要があります。
最も一般的な方法は、生じるトレードオフを必ずしも定量化せずに、質より量を優先します。
この作業では、データ駆動型のコンテキスト意思決定と、データの質と量のパフォーマンスへの影響を研究します。
ニュースベンダーの損失を伴う状況に応じた意思決定に焦点を当てています。
この損失は、オペレーションズ リサーチの中心的なキャパシティ プランニングの問題によるものですが、分位点回帰に関連するものでもあります。
同様のコンテキストで観察された結果が同様の分布を持つモデルを検討し、コンテキスト空間での類似性に従ってデータを重み付けするカーネルポリシーの古典的なクラスのパフォーマンスを分析します。
これらのポリシーの最悪の場合に予想される後悔の正確な特徴付けにつながる一連の結果を作成します。
この正確な特徴付けは、任意のサンプル サイズと観察されたコンテキストに適用されます。
私たちが開発するモデルは柔軟で、部分的に観察されたコンテキストのケースを捉えます。
この正確な分析により、均一なカーネル メソッドの学習動作に関する新しい構造的洞察を明らかにすることができます。
ii) 以前の境界ではキャプチャされなかったデータ サイズの関数として、パフォーマンスの重要な非単調性を示します。
iii) 一部の体制では、データの品質を少し向上させるだけで、パフォーマンス目標を達成するために必要なサンプルの量を劇的に減らすことができることを示しています。
全体として、私たちの作業は、データの質と量の相互作用、および中心的な問題クラスのパフォーマンスを正確に定量化できることを示しています。
また、トレードオフを理解するために、問題固有の境界が必要であることも強調しています。
要約(オリジナル)
When building datasets, one needs to invest time, money and energy to either aggregate more data or to improve their quality. The most common practice favors quantity over quality without necessarily quantifying the trade-off that emerges. In this work, we study data-driven contextual decision-making and the performance implications of quality and quantity of data. We focus on contextual decision-making with a Newsvendor loss. This loss is that of a central capacity planning problem in Operations Research, but also that associated with quantile regression. We consider a model in which outcomes observed in similar contexts have similar distributions and analyze the performance of a classical class of kernel policies which weigh data according to their similarity in a contextual space. We develop a series of results that lead to an exact characterization of the worst-case expected regret of these policies. This exact characterization applies to any sample size and any observed contexts. The model we develop is flexible, and captures the case of partially observed contexts. This exact analysis enables to unveil new structural insights on the learning behavior of uniform kernel methods: i) the specialized analysis leads to very large improvements in quantification of performance compared to state of the art general purpose bounds. ii) we show an important non-monotonicity of the performance as a function of data size not captured by previous bounds; and iii) we show that in some regimes, a little increase in the quality of the data can dramatically reduce the amount of samples required to reach a performance target. All in all, our work demonstrates that it is possible to quantify in a precise fashion the interplay of data quality and quantity, and performance in a central problem class. It also highlights the need for problem specific bounds in order to understand the trade-offs at play.
arxiv情報
著者 | Omar Besbes,Will Ma,Omar Mouchtaki |
発行日 | 2023-02-16 17:03:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google