Agnostic Active Learning of Single Index Models with Linear Sample Complexity

要約

$F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$ の形式の単一インデックス モデルに対するアクティブ ラーニング手法を研究します。ここで、$f:\mathbb{R
} \to \mathbb{R}$ と ${\mathbf x,\mathbf w} \in \mathbb{R}^d$。
単一インデックス モデルは、非線形ニューラル ネットワークの単純な例としての理論的関心に加えて、偏微分方程式 (PDE) の代理モデリングなどの科学機械学習への応用により、最近大きな注目を集めています。
このようなアプリケーションには、敵対的なノイズに強い、サンプル効率の高いアクティブ ラーニング手法が必要です。
つまり、これは、挑戦的な不可知論的な学習環境でも機能します。
単一インデックス モデルの不可知論的なアクティブ ラーニングに関する 2 つの主な結果を提供します。
まず、$f$ が既知であり、リプシッツの場合、{統計的レバレッジ スコア サンプリング} によって収集された $\tilde{O}(d)$ サンプルが、最適に近い単一インデックス モデルを学習するのに十分であることを示します。
レバレッジ スコア サンプリングは実装が簡単で効率的であり、線形モデルを能動的に学習するためにすでに広く使用されています。
私たちの結果はデー​​タ分布に関する仮定を必要とせず、対数因子まで最適であり、\cite{gajjar2023active} の最近の ${O}(d^{2})$ 限界で二次関数的に改善します。
次に、$f$ が \emph{unknown} の場合、より困難な設定でも $\tilde{O}(d)$ サンプルで十分であることを示します。
私たちの結果は、ダドリーの不等式や二重スダコフマイナー化、リプシッツ関数のクラスの新しい分布を意識した離散化など、高次元の確率からのツールを活用しています。

要約(オリジナル)

We study active learning methods for single index models of the form $F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, where $f:\mathbb{R} \to \mathbb{R}$ and ${\mathbf x,\mathbf w} \in \mathbb{R}^d$. In addition to their theoretical interest as simple examples of non-linear neural networks, single index models have received significant recent attention due to applications in scientific machine learning like surrogate modeling for partial differential equations (PDEs). Such applications require sample-efficient active learning methods that are robust to adversarial noise. I.e., that work even in the challenging agnostic learning setting. We provide two main results on agnostic active learning of single index models. First, when $f$ is known and Lipschitz, we show that $\tilde{O}(d)$ samples collected via {statistical leverage score sampling} are sufficient to learn a near-optimal single index model. Leverage score sampling is simple to implement, efficient, and already widely used for actively learning linear models. Our result requires no assumptions on the data distribution, is optimal up to log factors, and improves quadratically on a recent ${O}(d^{2})$ bound of \cite{gajjar2023active}. Second, we show that $\tilde{O}(d)$ samples suffice even in the more difficult setting when $f$ is \emph{unknown}. Our results leverage tools from high dimensional probability, including Dudley’s inequality and dual Sudakov minoration, as well as a novel, distribution-aware discretization of the class of Lipschitz functions.

arxiv情報

著者 Aarshvi Gajjar,Wai Ming Tai,Xingyu Xu,Chinmay Hegde,Christopher Musco,Yi Li
発行日 2024-05-15 13:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク