Omnipredicting Single-Index Models with Multi-Index Models

要約

教師あり学習に関する最近の研究 [GKR+22] では、オムニ予測子の概念、つまり、比較子クラス $\mathcal に対して損失関数 $\mathcal{L}$ の族を最小化する点で同時に競合する特徴に対する予測子関数 $p$ の概念が定義されました。
{C}$。
全方位予測では、損失最小化パラダイムを超えてベイズ最適予測器を近似する必要があり、学習理論コミュニティで大きな関心を集めています。
ただし、不可知論的に学習する単一インデックス モデル (SIM) などの基本的な設定であっても、既存のオムニ予測器の構築では、非現実的に大きなサンプルの複雑さと実行時間が必要となり、複雑で非常に不適切な仮説が出力されます。
私たちの主な貢献は、SIM 用のオムニプレディクターの新しいシンプルな構築です。
比較器クラスが有界線形予測器である場合、単調なリプシッツリンク関数によって引き起こされるマッチング損失に対して $\varepsilon$ 競合性のあるオムニ予測器を出力する学習器を与えます。
私たちのアルゴリズムは $\estimate \varepsilon^{-4}$ サンプルを必要とし、ほぼ線形時間で実行されます。リンク関数がバイリプシッツの場合、サンプルの複雑さは $\estimate \varepsilon^{-2}$ に向上します。
これは、$\gtrsim \varepsilon^{-10}$ サンプルを使用した [HJKRR18, GHK+23] による、唯一の既知の構築を大幅に改善しています。
私たちは、潜在的に独立した関心のある、挑戦的な不可知論的学習設定における古典的な Isotron アルゴリズム [KS09、KKKS11] の新しく鋭い分析を通じて構築を達成しました。
これまで、Isotron は実現可能な設定で SIM を適切に学習するだけでなく、二乗損失 [ZWDD24] の下で定数因子競合仮説を適切に学習することが知られていました。
Isotron に基づいているため、当社のオムニ予測器は $\estimate \varepsilon^{-2}$ 予測ヘッドを備えたマルチインデックス モデルであり、一般的な損失ファミリーとコンパレータの適切なオムニ予測という魅力的な目標に近づくことができます。

要約(オリジナル)

Recent work on supervised learning [GKR+22] defined the notion of omnipredictors, i.e., predictor functions $p$ over features that are simultaneously competitive for minimizing a family of loss functions $\mathcal{L}$ against a comparator class $\mathcal{C}$. Omniprediction requires approximating the Bayes-optimal predictor beyond the loss minimization paradigm, and has generated significant interest in the learning theory community. However, even for basic settings such as agnostically learning single-index models (SIMs), existing omnipredictor constructions require impractically-large sample complexities and runtimes, and output complex, highly-improper hypotheses. Our main contribution is a new, simple construction of omnipredictors for SIMs. We give a learner outputting an omnipredictor that is $\varepsilon$-competitive on any matching loss induced by a monotone, Lipschitz link function, when the comparator class is bounded linear predictors. Our algorithm requires $\approx \varepsilon^{-4}$ samples and runs in nearly-linear time, and its sample complexity improves to $\approx \varepsilon^{-2}$ if link functions are bi-Lipschitz. This significantly improves upon the only prior known construction, due to [HJKRR18, GHK+23], which used $\gtrsim \varepsilon^{-10}$ samples. We achieve our construction via a new, sharp analysis of the classical Isotron algorithm [KS09, KKKS11] in the challenging agnostic learning setting, of potential independent interest. Previously, Isotron was known to properly learn SIMs in the realizable setting, as well as constant-factor competitive hypotheses under the squared loss [ZWDD24]. As they are based on Isotron, our omnipredictors are multi-index models with $\approx \varepsilon^{-2}$ prediction heads, bringing us closer to the tantalizing goal of proper omniprediction for general loss families and comparators.

arxiv情報

著者 Lunjia Hu,Kevin Tian,Chutong Yang
発行日 2025-01-22 14:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.OC, stat.ML パーマリンク