要約
ガウス混合モデル (GMM) は、最も頻繁に使用される機械学習モデルの 1 つです。
ただし、大規模な一般的な GMM のトレーニングは、高次元 $D$ のデータ ポイント $N$ が多数あるデータセットでは計算量が法外になります。
ここでは、任意の共分散を持つ GMM に対して、因子分析器 (MFA) の混合と統合された非常に効率的な変分近似を導出します。
$C$ コンポーネントを備えた GMM の場合、私たちが提案したアルゴリズムは、反復あたりの実行時の複雑さを $\mathcal{O}(NCD^2)$ から $D$ に線形にスケーリングし、全体的に一定のままの複雑さまで大幅に削減します。
$C$。
この理論的な複雑さの軽減を数値的に検証すると、GMM 最適化プロセス全体に必要な距離評価は $NC$ に応じて準線形にスケールされることがわかります。
大規模なベンチマークでは、このサブリニアリティにより、最新技術と比較して桁違いの高速化が実現します。
概念実証として、約 1 億枚の画像に対して 100 億を超えるパラメーターを使用して GMM をトレーニングし、単一の最先端 CPU で約 9 時間のトレーニング時間を観察しました。
要約(オリジナル)
Gaussian Mixture Models (GMMs) range among the most frequently used machine learning models. However, training large, general GMMs becomes computationally prohibitive for datasets with many data points $N$ of high-dimensionality $D$. For GMMs with arbitrary covariances, we here derive a highly efficient variational approximation, which is integrated with mixtures of factor analyzers (MFAs). For GMMs with $C$ components, our proposed algorithm significantly reduces runtime complexity per iteration from $\mathcal{O}(NCD^2)$ to a complexity scaling linearly with $D$ and remaining constant w.r.t. $C$. Numerical validation of this theoretical complexity reduction then shows the following: the distance evaluations required for the entire GMM optimization process scale sublinearly with $NC$. On large-scale benchmarks, this sublinearity results in speed-ups of an order-of-magnitude compared to the state-of-the-art. As a proof of concept, we train GMMs with over 10 billion parameters on about 100 million images, and observe training times of approximately nine hours on a single state-of-the-art CPU.
arxiv情報
著者 | Sebastian Salwig,Till Kahlke,Florian Hirschberger,Dennis Forster,Jörg Lücke |
発行日 | 2025-01-21 17:11:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google