Rethinking Distribution Shifts: Empirical Analysis and Inductive Modeling for Tabular Data

要約

分布の変化が異なれば、異なる介入が必要となり、アルゴリズムは対応する特定の変化に基づいたものでなければなりません。
ただし、堅牢なアルゴリズムの方法論的開発は、通常、経験的な検証が欠けている構造的な仮定に依存しています。
研究に対する経験に基づいたデータ駆動型アプローチを提唱する私たちは、5 つの表形式のデータセットにわたる自然なシフトと、不均衡な学習と分布ロバストな最適化 (DRO) 手法を含む 60,000 のメソッド構成で構成される経験的なテストベッドを構築します。
ML 文献では $X$ (共変量) シフトに重点が置かれているのとは対照的に、テストベッドでは $Y|X$ シフトが最も一般的であることがわかりました。
堅牢なアルゴリズムのパフォーマンスはシフト タイプによって大幅に異なり、通常の手法と同等です。
その理由を理解するために、私たちは DRO メソッドの詳細な実証分析を実施しました。その結果、研究者によって無視されることが多いものの、基礎となるモデル クラス (XGBoost など) の選択やハイパーパラメーターの選択などの実装の詳細がより大きな影響を与えることがわかりました。
曖昧性セットやその半径よりもパフォーマンスに影響します。
方法論的研究と実践の間のギャップをさらに埋めるために、分布の変化に関するこのようなデータ駆動型の帰納的理解がデータ中心の介入とアルゴリズム介入の両方をどのように強化できるかを示すケーススタディを設計します。

要約(オリジナル)

Different distribution shifts require different interventions, and algorithms must be grounded in the specific shifts they address. However, methodological development for robust algorithms typically relies on structural assumptions that lack empirical validation. Advocating for an empirically grounded data-driven approach to research, we build an empirical testbed comprising natural shifts across 5 tabular datasets and 60,000 method configurations encompassing imbalanced learning and distributionally robust optimization (DRO) methods. We find $Y|X$-shifts are most prevalent on our testbed, in stark contrast to the heavy focus on $X$ (covariate)-shifts in the ML literature. The performance of robust algorithms varies significantly over shift types, and is no better than that of vanilla methods. To understand why, we conduct an in-depth empirical analysis of DRO methods and find that although often neglected by researchers, implementation details — such as the choice of underlying model class (e.g., XGBoost) and hyperparameter selection — have a bigger impact on performance than the ambiguity set or its radius. To further bridge that gap between methodological research and practice, we design case studies that illustrate how such a data-driven, inductive understanding of distribution shifts can enhance both data-centric and algorithmic interventions.

arxiv情報

著者 Jiashuo Liu,Tianyu Wang,Peng Cui,Hongseok Namkoong
発行日 2024-11-13 15:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク