On the Need for a Language Describing Distribution Shifts: Illustrations on Tabular Datasets

要約

配布のシフトが異なれば、アルゴリズムと運用上の介入も異なります。
方法論的研究は、それらが取り組む特定の変化に基づいていなければなりません。
初期のベンチマークは有望な経験的基盤を提供しますが、それらは暗黙のうちに共変量のシフトに焦点を当てており、経験的発見の妥当性はシフトのタイプに依存します。たとえば、$Y|X$ 分布が変化すると、アルゴリズムのパフォーマンスに関する以前の観察が妥当でなくなる可能性があります。

私たちは、86,000 のモデル構成にわたる 5 つの表形式データセットの自然シフトの徹底的な調査を実施し、$Y|X$ シフトが最も一般的であることを発見しました。
研究者が分布シフトのための洗練された言語を開発することを奨励するために、私たちは WhyShift を構築します。これは、パフォーマンスをベンチマークするシフトのタイプを特徴付ける、厳選された現実世界のシフトの実証的テストベッドです。
$Y|X$ シフトは表形式の設定で一般的であるため、最大の $Y|X$ シフトを受ける共変量領域を特定し、アルゴリズムおよびデータベースの介入への影響について議論します。
私たちのテストベッドは、分布がどのように異なるかを理解する将来の研究の重要性を強調しています。

要約(オリジナル)

Different distribution shifts require different algorithmic and operational interventions. Methodological research must be grounded by the specific shifts they address. Although nascent benchmarks provide a promising empirical foundation, they implicitly focus on covariate shifts, and the validity of empirical findings depends on the type of shift, e.g., previous observations on algorithmic performance can fail to be valid when the $Y|X$ distribution changes. We conduct a thorough investigation of natural shifts in 5 tabular datasets over 86,000 model configurations, and find that $Y|X$-shifts are most prevalent. To encourage researchers to develop a refined language for distribution shifts, we build WhyShift, an empirical testbed of curated real-world shifts where we characterize the type of shift we benchmark performance over. Since $Y|X$-shifts are prevalent in tabular settings, we identify covariate regions that suffer the biggest $Y|X$-shifts and discuss implications for algorithmic and data-based interventions. Our testbed highlights the importance of future research that builds an understanding of how distributions differ.

arxiv情報

著者 Jiashuo Liu,Tianyu Wang,Peng Cui,Hongseok Namkoong
発行日 2023-07-11 14:25:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク