Distributed Learning of Mixtures of Experts

要約

最新の機械学習の問題では、本質的に分散しているデータセット、または潜在的に大規模なデータセットを扱いますが、集中型アルゴリズムは一般に効果がないため、計算を分散することが通常は標準的な方法です。
データの分散サブセットに並列に適合した局所推定量から削減推定量を構築するための集約戦略を備えた、専門家混合 (MoE) モデルに対する分散学習アプローチを提案します。
この集約は、ローカル推定器で構成される大規模な MoE と未知の望ましい MoE モデルの間で予想される輸送の差異の最適な最小化に基づいています。
集約される局所推定量が一致するとすぐに、提供された削減推定量が一貫性を持ち、その構築が計算効率の高い提案された多数決最小化 (MM) アルゴリズムによって実行されることを示します。
提案された削減推定量の統計的および数値的特性を、完全なデータセットから一元的に構築されたグローバル推定量と比較してそのパフォーマンスを実証する実験で研究します。
状況によっては、同等のパフォーマンスでも計算時間が 10 倍以上高速になります。
私たちのソースコードは Github で公開されています。

要約(オリジナル)

In modern machine learning problems we deal with datasets that are either distributed by nature or potentially large for which distributing the computations is usually a standard way to proceed, since centralized algorithms are in general ineffective. We propose a distributed learning approach for mixtures of experts (MoE) models with an aggregation strategy to construct a reduction estimator from local estimators fitted parallelly to distributed subsets of the data. The aggregation is based on an optimal minimization of an expected transportation divergence between the large MoE composed of local estimators and the unknown desired MoE model. We show that the provided reduction estimator is consistent as soon as the local estimators to be aggregated are consistent, and its construction is performed by a proposed majorization-minimization (MM) algorithm that is computationally effective. We study the statistical and numerical properties for the proposed reduction estimator on experiments that demonstrate its performance compared to namely the global estimator constructed in a centralized way from the full dataset. For some situations, the computation time is more than ten times faster, for a comparable performance. Our source codes are publicly available on Github.

arxiv情報

著者 Faïcel Chamroukhi,Nhat Thien Pham
発行日 2023-12-15 15:26:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, stat.ML パーマリンク