Efficient Gradient Estimation via Adaptive Sampling and Importance Sampling

要約

機械学習の問題は、最適化のために確率的勾配降下法 (SGD) に大きく依存します。
SGD の有効性は、データ サンプルのミニバッチから勾配を正確に推定できるかどうかに依存します。
一般的に使用される均一サンプリングの代わりに、適応サンプリングまたは重要度サンプリングは、重要なデータ ポイントに優先順位を付けるミニバッチを形成することで勾配推定のノイズを低減します。
以前の研究では、データ ポイントはその勾配ノルムに比例する確率で選択されるべきであることが示唆されています。
それにもかかわらず、既存のアルゴリズムは、重要度サンプリングを機械学習フレームワークに効率的に統合するのに苦労しています。
この作業では、2 つの貢献を行います。
まず、既存の重要度関数をフレームワークに組み込むことができるアルゴリズムを紹介します。
第 2 に、出力層の損失勾配のみに依存する単純化された重要度関数を提案します。
私たちが提案した勾配推定手法を活用することで、最小限の計算オーバーヘッドで分類および回帰タスクの収束が向上することがわかります。
画像および点群データセットに対する適応型および重要度サンプリング アプローチの有効性を検証します。

要約(オリジナル)

Machine learning problems rely heavily on stochastic gradient descent (SGD) for optimization. The effectiveness of SGD is contingent upon accurately estimating gradients from a mini-batch of data samples. Instead of the commonly used uniform sampling, adaptive or importance sampling reduces noise in gradient estimation by forming mini-batches that prioritize crucial data points. Previous research has suggested that data points should be selected with probabilities proportional to their gradient norm. Nevertheless, existing algorithms have struggled to efficiently integrate importance sampling into machine learning frameworks. In this work, we make two contributions. First, we present an algorithm that can incorporate existing importance functions into our framework. Second, we propose a simplified importance function that relies solely on the loss gradient of the output layer. By leveraging our proposed gradient estimation techniques, we observe improved convergence in classification and regression tasks with minimal computational overhead. We validate the effectiveness of our adaptive and importance-sampling approach on image and point-cloud datasets.

arxiv情報

著者 Corentin Salaün,Xingchang Huang,Iliyan Georgiev,Niloy J. Mitra,Gurprit Singh
発行日 2023-11-24 13:21:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク