Coresets for Wasserstein Distributionally Robust Optimization Problems


タイトル:Wasserstein Distributionally Robust Optimization ProblemsのためのCoresets
– Wasserstein分布ロバスト最適化(WDRO)は、曖昧なデータにおける機械学習のロバスト性を高めるための人気のあるモデルである。
– WDROの複雑さは、その「minimax」形式を解決するために大量の計算が必要であるため、実際の現場で禁止される可能性がある。
– 特定の機械学習タスク(例えば、ロジスティック回帰)のいくつかの高速WDROトレーニングアルゴリズムが最近開発されています。
– 一般的な大規模WDROに対して効率的なアルゴリズムを設計する研究は、現在までにわれわれの知る限り限られている。
– Coresetは、大規模なデータセットを圧縮するための重要なツールであり、多くの最適化問題において計算の複雑さを減らすために広く適用されています。
– 本論文では、一般的なWDRO問題のためのε-coresetを構築するための統一されたフレームワークを紹介します。
– 曖昧なデータの不確実性の問題があるため、WDROの従来のcoresetを取得することは困難ですが、WDROの強い双対性を利用して「双対coreset」を計算できることを示しています。
– 双対coresetによって導入されるエラーは、元のWDRO目的に対して理論的に保証されます。
– 双対coresetを構築するために、WDROの双対形式に特に適したグリッドサンプリングアプローチを提案します。
– 最後に、coresetアプローチを実装し、実験においていくつかのWDRO問題の有効性を説明します。


Wasserstein distributionally robust optimization (\textsf{WDRO}) is a popular model to enhance the robustness of machine learning with ambiguous data. However, the complexity of \textsf{WDRO} can be prohibitive in practice since solving its “minimax” formulation requires a great amount of computation. Recently, several fast \textsf{WDRO} training algorithms for some specific machine learning tasks (e.g., logistic regression) have been developed. However, the research on designing efficient algorithms for general large-scale \textsf{WDRO}s is still quite limited, to the best of our knowledge. \textit{Coreset} is an important tool for compressing large dataset, and thus it has been widely applied to reduce the computational complexities for many optimization problems. In this paper, we introduce a unified framework to construct the $\epsilon$-coreset for the general \textsf{WDRO} problems. Though it is challenging to obtain a conventional coreset for \textsf{WDRO} due to the uncertainty issue of ambiguous data, we show that we can compute a “dual coreset” by using the strong duality property of \textsf{WDRO}. Also, the error introduced by the dual coreset can be theoretically guaranteed for the original \textsf{WDRO} objective. To construct the dual coreset, we propose a novel grid sampling approach that is particularly suitable for the dual formulation of \textsf{WDRO}. Finally, we implement our coreset approach and illustrate its effectiveness for several \textsf{WDRO} problems in the experiments.


著者 Ruomin Huang,Jiawei Huang,Wenjie Liu,Hu Ding
発行日 2023-04-04 08:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG パーマリンク