Distributionally Robust Machine Learning with Multi-source Data

要約

従来の機械学習手法では、ターゲットの分布がソース母集団と異なる場合、予測パフォーマンスが低下する可能性があります。
この論文では、複数のソースからのデータを利用し、ターゲット分布のクラスに関して説明された分散に関する敵対的報酬を最適化するために定義されたグループ分布的にロバストな予測モデルを紹介します。
古典的な経験的リスク最小化と比較して、提案されたロバスト予測モデルは、分布シフトのある対象集団の予測精度を向上させます。
私たちのグループ分布的にロバストな予測モデルは、ソース集団の条件付き結果モデルの加重平均であることを示します。
この重要な識別結果を活用して、ランダム フォレストやニューラル ネットワークなどの任意の機械学習アルゴリズムを強化します。
一般的な機械学習アルゴリズムの最適な集約重みを推定するための新しいバイアス補正推定器を考案し、その収束率の向上を実証します。
私たちの提案は、計算効率が高く、任意の機械学習ベース アルゴリズムを使用して実装が容易で、いくつかのプライバシー制約を満たし、特定のターゲット共変量分布を予測するためのさまざまなソースの重要性を適切に解釈する、分布的に堅牢なフェデレーテッド ラーニング アプローチとみなすことができます。
基礎学習アルゴリズムとしてランダム フォレストとニューラル ネットワークを使用して、シミュレーション データと実際のデータに対して提案したグループ分布的にロバストな方法のパフォーマンスを実証します。

要約(オリジナル)

Classical machine learning methods may lead to poor prediction performance when the target distribution differs from the source populations. This paper utilizes data from multiple sources and introduces a group distributionally robust prediction model defined to optimize an adversarial reward about explained variance with respect to a class of target distributions. Compared to classical empirical risk minimization, the proposed robust prediction model improves the prediction accuracy for target populations with distribution shifts. We show that our group distributionally robust prediction model is a weighted average of the source populations’ conditional outcome models. We leverage this key identification result to robustify arbitrary machine learning algorithms, including, for example, random forests and neural networks. We devise a novel bias-corrected estimator to estimate the optimal aggregation weight for general machine-learning algorithms and demonstrate its improvement in the convergence rate. Our proposal can be seen as a distributionally robust federated learning approach that is computationally efficient and easy to implement using arbitrary machine learning base algorithms, satisfies some privacy constraints, and has a nice interpretation of different sources’ importance for predicting a given target covariate distribution. We demonstrate the performance of our proposed group distributionally robust method on simulated and real data with random forests and neural networks as base-learning algorithms.

arxiv情報

著者 Zhenyu Wang,Peter Bühlmann,Zijian Guo
発行日 2023-09-05 13:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク