要約
機械学習における最近の進歩の背後にある強力な概念は、異種ソースやタスクからのデータ全体に共通する特徴を抽出することです。
直観的には、すべてのデータを使用して共通の表現関数を学習すると、特定のタスクで微調整するパラメーターの数が少なくなるため、計算量と統計的一般化の両方にメリットが得られます。
これらの利点を理論的に根拠付けるために、ノイズの多いベクトル測定値 $y = Mx + w$ から線形演算子 $M$ を回復する一般的な設定を提案します。ここで、共変量 $x$ は両方とも非 i.i.d.
そして非等方性。
我々は、既存の等方性に依存しないメタ学習アプローチでは表現の更新にバイアスがかかり、それによりノイズ項のスケーリングがソースタスクの数に対する有利な依存性を失うことを実証します。
これにより、表現学習のサンプルの複雑さが単一タスクのデータ サイズによってボトルネックになる可能性があります。
Collins et al., (2021) で提案された人気のある交互最小化降下 (AMD) スキームの適応 $\texttt{De-bias & Feature-Whiten}$ ($\texttt{DFW}$) を導入します。
$\textit{total}$ ソース データ サイズに応じてノイズ レベルをスケールダウンして、最適な表現への線形収束を確立します。
これにより、オラクルの経験的リスク最小化と同じ次数の一般化限界が得られます。
$\texttt{DFW}$ の重要性をさまざまな数値シミュレーションで検証します。
特に、バニラ交互最小化降下法は、iid の場合でも壊滅的に失敗しますが、軽度の非等方性データであることを示します。
私たちの分析は、以前の研究を統合および一般化し、制御や動的システムなどのより広範囲のアプリケーションに柔軟なフレームワークを提供します。
要約(オリジナル)
A powerful concept behind much of the recent progress in machine learning is the extraction of common features across data from heterogeneous sources or tasks. Intuitively, using all of one’s data to learn a common representation function benefits both computational effort and statistical generalization by leaving a smaller number of parameters to fine-tune on a given task. Toward theoretically grounding these merits, we propose a general setting of recovering linear operators $M$ from noisy vector measurements $y = Mx + w$, where the covariates $x$ may be both non-i.i.d. and non-isotropic. We demonstrate that existing isotropy-agnostic meta-learning approaches incur biases on the representation update, which causes the scaling of the noise terms to lose favorable dependence on the number of source tasks. This in turn can cause the sample complexity of representation learning to be bottlenecked by the single-task data size. We introduce an adaptation, $\texttt{De-bias & Feature-Whiten}$ ($\texttt{DFW}$), of the popular alternating minimization-descent (AMD) scheme proposed in Collins et al., (2021), and establish linear convergence to the optimal representation with noise level scaling down with the $\textit{total}$ source data size. This leads to generalization bounds on the same order as an oracle empirical risk minimizer. We verify the vital importance of $\texttt{DFW}$ on various numerical simulations. In particular, we show that vanilla alternating-minimization descent fails catastrophically even for iid, but mildly non-isotropic data. Our analysis unifies and generalizes prior work, and provides a flexible framework for a wider range of applications, such as in controls and dynamical systems.
arxiv情報
著者 | Thomas T. C. K. Zhang,Leonardo F. Toso,James Anderson,Nikolai Matni |
発行日 | 2023-08-08 17:56:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google