Sketchy Moment Matching: Toward Fast and Provable Data Selection for Finetuning

要約

基本的な観点から微調整という現代の文脈でデータの選択を再考します。
低次元での分散最小化という古典的な知恵を高次元の微調整に拡張することで、私たちの一般化分析は、低ランク近似によって引き起こされるバイアスをさらに低減することの重要性を明らかにします。
理論からの高次元での分散とバイアスのトレードオフにヒントを得て、2 段階のスケーラブルなデータ選択スキームであるスケッチー モーメント マッチング (SkMM) を紹介します。
(i) まず、有益な低次元部分空間 $\mathcal{S}$ の微調整パラメータ空間を探索する勾配スケッチを使用してバイアスを制御します。
(ii) 次に、元のデータセットと選択したデータセットの間のモーメントマッチングによって、$\mathcal{S}$ にわたって分散が減少します。
理論的には、勾配スケッチが高速で正確であることが証明されています。$\mathcal{S}$ の分散を減らすことで $n$ サンプルを選択すると、高速汎化 $O(\dim(\mathcal{S})/n) が維持されます。
$、パラメータの次元とは独立しています。
経験的に、合成実験を通じて分散とバイアスのバランスを具体化し、実際の視覚タスクにおける微調整に対する SkMM の有効性を実証します。

要約(オリジナル)

We revisit data selection in a modern context of finetuning from a fundamental perspective. Extending the classical wisdom of variance minimization in low dimensions to high-dimensional finetuning, our generalization analysis unveils the importance of additionally reducing bias induced by low-rank approximation. Inspired by the variance-bias tradeoff in high dimensions from the theory, we introduce Sketchy Moment Matching (SkMM), a scalable data selection scheme with two stages. (i) First, the bias is controlled using gradient sketching that explores the finetuning parameter space for an informative low-dimensional subspace $\mathcal{S}$; (ii) then the variance is reduced over $\mathcal{S}$ via moment matching between the original and selected datasets. Theoretically, we show that gradient sketching is fast and provably accurate: selecting $n$ samples by reducing variance over $\mathcal{S}$ preserves the fast-rate generalization $O(\dim(\mathcal{S})/n)$, independent of the parameter dimension. Empirically, we concretize the variance-bias balance via synthetic experiments and demonstrate the effectiveness of SkMM for finetuning in real vision tasks.

arxiv情報

著者 Yijun Dong,Hoang Phan,Xiang Pan,Qi Lei
発行日 2024-07-08 16:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク