Mitigating Covariate Shift in Misspecified Regression with Applications to Reinforcement Learning

要約

機械学習アプリケーションで広く見られる現象は、機械学習モデルのトレーニング条件とデプロイメント条件が異なる分布シフトです。
通常、分布のシフトはパフォーマンスの低下を引き起こすため、これらの悪影響を軽減するアルゴリズムの介入に多くの注意が払われてきました。
この論文では、モデルの指定ミスが存在する場合の分布シフトの影響を研究します。特に、$L_{\infty}$-指定ミス回帰と敵対的共変量シフトに焦点を当てます。この場合、回帰ターゲットは固定されたままですが、共変量分布は恣意的に変化します。
経験的リスクの最小化、つまり標準最小二乗回帰は、仕様ミスによる誤差がトレーニング分布とテスト分布の間の密度比によって増幅される、望ましくない仕様ミスの増幅を引き起こす可能性があることを示します。
私たちの主な成果として、この望ましくない動作を回避し、最適な統計率を取得しながら誤った増幅を生じさせない、堅牢な最適化手法にヒントを得た新しいアルゴリズムを開発しました。
応用として、この回帰手順を使用して、仕様の誤りがあるオフラインおよびオンラインの強化学習で新しい保証を取得し、以前に研究された構造条件とカバレッジの概念との間の新しい分離を確立します。

要約(オリジナル)

A pervasive phenomenon in machine learning applications is distribution shift, where training and deployment conditions for a machine learning model differ. As distribution shift typically results in a degradation in performance, much attention has been devoted to algorithmic interventions that mitigate these detrimental effects. In this paper, we study the effect of distribution shift in the presence of model misspecification, specifically focusing on $L_{\infty}$-misspecified regression and adversarial covariate shift, where the regression target remains fixed while the covariate distribution changes arbitrarily. We show that empirical risk minimization, or standard least squares regression, can result in undesirable misspecification amplification where the error due to misspecification is amplified by the density ratio between the training and testing distributions. As our main result, we develop a new algorithm — inspired by robust optimization techniques — that avoids this undesirable behavior, resulting in no misspecification amplification while still obtaining optimal statistical rates. As applications, we use this regression procedure to obtain new guarantees in offline and online reinforcement learning with misspecification and establish new separations between previously studied structural conditions and notions of coverage.

arxiv情報

著者 Philip Amortila,Tongyi Cao,Akshay Krishnamurthy
発行日 2024-01-22 18:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク