Bayesian Nonparametrics Meets Data-Driven Robust Optimization

要約

機械学習および統計モデルのトレーニングには、多くの場合、データ駆動型のリスク基準の最適化が含まれます。
リスクは通常、経験的なデータ分布に基づいて計算されますが、分布の不確実性により、サンプル外のパフォーマンスが低下して不安定になる可能性があります。
分布的にロバストな最適化の精神に基づいて、ベイズのノンパラメトリック (すなわち、ディリクレ過程) 理論とスムーズな曖昧さ回避選好の最近の意思決定理論モデルからの洞察を組み合わせることにより、新しいロバストな基準を提案します。
まず、Ridge 回帰と LASSO 回帰など、標準的な正規化された経験的リスク最小化手法との新しい関係を強調します。
次に、ロバストな最適化手順のパフォーマンスに対する有利な有限サンプルと漸近統計的保証の存在を理論的に実証します。
実際の実装のために、よく知られているディリクレ過程の表現に基づいた基準の扱いやすい近似を提案および研究します。
また、基準の滑らかさが標準的な勾配ベースの数値最適化に自然につながることも示します。
最後に、高次元のスパース線形回帰、バイナリ分類、およびロバストな位置パラメータ推定タスクに適用することで、この方法の仕組みについての洞察を提供します。

要約(オリジナル)

Training machine learning and statistical models often involves optimizing a data-driven risk criterion. The risk is usually computed with respect to the empirical data distribution, but this may result in poor and unstable out-of-sample performance due to distributional uncertainty. In the spirit of distributionally robust optimization, we propose a novel robust criterion by combining insights from Bayesian nonparametric (i.e., Dirichlet Process) theory and recent decision-theoretic models of smooth ambiguity-averse preferences. First, we highlight novel connections with standard regularized empirical risk minimization techniques, among which Ridge and LASSO regressions. Then, we theoretically demonstrate the existence of favorable finite-sample and asymptotic statistical guarantees on the performance of the robust optimization procedure. For practical implementation, we propose and study tractable approximations of the criterion based on well-known Dirichlet Process representations. We also show that the smoothness of the criterion naturally leads to standard gradient-based numerical optimization. Finally, we provide insights into the workings of our method by applying it to high-dimensional sparse linear regression, binary classification, and robust location parameter estimation tasks.

arxiv情報

著者 Nicola Bariletto,Nhat Ho
発行日 2024-03-19 16:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク