Towards Convergence Rates for Parameter Estimation in Gaussian-gated Mixture of Experts

要約

元々アンサンブル学習のためのニューラルネットワークとして導入されたMixture of Expert(MoE)は、近年、機械学習、統計学、バイオインフォマティクス、経済学、医学など、いくつかのアプリケーションで異種データ解析のための非常に成功した最新のディープニューラルネットワークの基本構成ブロックになっている。実際には人気があるにもかかわらず、ガウスゲートMoEパラメータ推定の収束挙動に関する満足のいくレベルの理解は、完全とは言い難いものである。この課題の根本的な理由は、ガウスゲートとエキスパートネットワークに共変量が含まれることで、それらのパラメータに関して偏微分方程式を介した本質的に複雑な相互作用が発生することである。我々は、これらのモデルのパラメータ推定を解決するための最尤推定量(MLE)において、異質性を正確に捉えるための新しいボロノイ損失関数を設計することによって、これらの問題に取り組む。最初の設定は、ガウスゲートにおける全ての位置パラメータが非ゼロである場合であり、2番目の設定は、少なくとも1つのゼロ値位置パラメータが存在する場合である。注目すべきは、これらの挙動は2つの異なる多項式システムの可解性によって特徴づけられることである。最後に、理論的な結果を検証するために、シミュレーションを行う。

要約(オリジナル)

Originally introduced as a neural network for ensemble learning, mixture of experts (MoE) has recently become a fundamental building block of highly successful modern deep neural networks for heterogeneous data analysis in several applications, including those in machine learning, statistics, bioinformatics, economics, and medicine. Despite its popularity in practice, a satisfactory level of understanding of the convergence behavior of Gaussian-gated MoE parameter estimation is far from complete. The underlying reason for this challenge is the inclusion of covariates in the Gaussian gating and expert networks, which leads to their intrinsically complex interactions via partial differential equations with respect to their parameters. We address these issues by designing novel Voronoi loss functions to accurately capture heterogeneity in the maximum likelihood estimator (MLE) for resolving parameter estimation in these models. Our results reveal distinct behaviors of the MLE under two settings: the first setting is when all the location parameters in the Gaussian gating are non-zeros while the second setting is when there exists at least one zero-valued location parameter. Notably, these behaviors can be characterized by the solvability of two different systems of polynomial equations. Finally, we conduct a simulation study to verify our theoretical results.

arxiv情報

著者 Huy Nguyen,TrungTin Nguyen,Khai Nguyen,Nhat Ho
発行日 2023-05-12 16:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク