Statistical Learning under Heterogeneous Distribution Shift

要約

この論文では、確率変数のペア $(\mathbf{x},\mathbf{y})$ からのターゲット $\mathbf{z}$ の予測を研究します。ここで、グラウンドトゥルース予測子は加法的 $\mathbb{E
}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$。
関数 $f+g$、$f \in F$、$g \in G$ に対する経験的リスク最小化 (ERM) のパフォーマンスを研究します。与えられたトレーニング分布に適合しますが、共変量シフトを示すテスト分布で評価されます。

クラス $F$ が $G$ よりも「単純」である場合 (たとえば、計量エントロピーの観点から測定)、予測子は異種共変量シフトに対してより耐性があることを示します。
x}$ は $\mathbf{y}$ よりもはるかに大きくなります。
私たちの分析は、ERM が直交機械学習と定性的に同様に動作することを実証することで進みます。つまり、ERM が予測子の $f$ コンポーネントを回復する速度は、部分的に調整されたクラス $G$ の複雑さに対して下位の依存性しかありません。
付加的な構造によって導入された非識別性。
これらの結果は、独立して興味深い可能性があるダドリー積分の新しい古いスタイルの不等式に依存しています。
さらに、多数のドメインにわたる「よりシンプルな」機能の移行に対する回復力の向上を実証する実験によって、理論的発見を裏付けます。

要約(オリジナル)

This paper studies the prediction of a target $\mathbf{z}$ from a pair of random variables $(\mathbf{x},\mathbf{y})$, where the ground-truth predictor is additive $\mathbb{E}[\mathbf{z} \mid \mathbf{x},\mathbf{y}] = f_\star(\mathbf{x}) +g_{\star}(\mathbf{y})$. We study the performance of empirical risk minimization (ERM) over functions $f+g$, $f \in F$ and $g \in G$, fit on a given training distribution, but evaluated on a test distribution which exhibits covariate shift. We show that, when the class $F$ is ‘simpler’ than $G$ (measured, e.g., in terms of its metric entropy), our predictor is more resilient to heterogeneous covariate shifts} in which the shift in $\mathbf{x}$ is much greater than that in $\mathbf{y}$. Our analysis proceeds by demonstrating that ERM behaves qualitatively similarly to orthogonal machine learning: the rate at which ERM recovers the $f$-component of the predictor has only a lower-order dependence on the complexity of the class $G$, adjusted for partial non-indentifiability introduced by the additive structure. These results rely on a novel H\’older style inequality for the Dudley integral which may be of independent interest. Moreover, we corroborate our theoretical findings with experiments demonstrating improved resilience to shifts in ‘simpler’ features across numerous domains.

arxiv情報

著者 Max Simchowitz,Anurag Ajay,Pulkit Agrawal,Akshay Krishnamurthy
発行日 2023-10-27 16:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク