Outlier-Robust Wasserstein DRO


分布的にロバストな最適化 (DRO) は、不確実性が存在する場合にデータに基づいて意思決定を行うための効果的なアプローチです。
データ ポイントのサンプリングまたは局所的な摂動による幾何学的不確実性は、Wasserstein DRO (WDRO) によって捕捉されます。WDRO は、観察されたデータ分布を中心とする Wasserstein ボール上で均一に良好に機能するモデルを学習しようとします。
ただし、WDRO は、敵対的な外れ値などの非幾何学的摂動を考慮できず、ワッサーシュタインの距離測定を大幅に歪め、学習されたモデルを妨げる可能性があります。
我々は、幾何学的な (Wasserstein) 摂動と非幾何学的な (総変動 (TV)) 汚染の両方の下での意思決定のための新しい外れ値に強い WDRO フレームワークを提案することで、このギャップに対処します。
両方の摂動タイプを考慮した特定の堅牢なワッサースタイン ボールを使用して不確実性セットを設計し、ワッサースタインと TV のリスクを明示的に捉えるこの手順のミニマックス最適超過リスク限界を導き出します。
我々は、扱いやすい凸再定式化と外れ値に強い WDRO 問題の効率的な計算を可能にする強力な双対性の結果を証明しました。


Distributionally robust optimization (DRO) is an effective approach for data-driven decision-making in the presence of uncertainty. Geometric uncertainty due to sampling or localized perturbations of data points is captured by Wasserstein DRO (WDRO), which seeks to learn a model that performs uniformly well over a Wasserstein ball centered around the observed data distribution. However, WDRO fails to account for non-geometric perturbations such as adversarial outliers, which can greatly distort the Wasserstein distance measurement and impede the learned model. We address this gap by proposing a novel outlier-robust WDRO framework for decision-making under both geometric (Wasserstein) perturbations and non-geometric (total variation (TV)) contamination that allows an $\varepsilon$-fraction of data to be arbitrarily corrupted. We design an uncertainty set using a certain robust Wasserstein ball that accounts for both perturbation types and derive minimax optimal excess risk bounds for this procedure that explicitly capture the Wasserstein and TV risks. We prove a strong duality result that enables tractable convex reformulations and efficient computation of our outlier-robust WDRO problem. When the loss function depends only on low-dimensional features of the data, we eliminate certain dimension dependencies from the risk bounds that are unavoidable in the general setting. Finally, we present experiments validating our theory on standard regression and classification tasks.


著者 Sloan Nietert,Ziv Goldfeld,Soroosh Shafiee
発行日 2023-11-09 18:32:00+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG, math.OC, stat.ML