要約
この研究では、教師あり学習問題について勾配フローを介して訓練された専門家混合 (MoE) の漸近挙動を研究します。
私たちの主な結果は、専門家の数が異なるにつれて環境省にカオスが伝播することを証明しています。
我々は、それらのパラメータの対応する経験的尺度が非線形連続方程式を解く確率尺度に近いことを実証し、専門家の数のみに依存する明示的な収束率を提供します。
私たちはその結果を、量子ニューラル ネットワークによって生成された MoE に適用します。
要約(オリジナル)
In this work, we study the asymptotic behavior of Mixture of Experts (MoE) trained via gradient flow on supervised learning problems. Our main result establishes the propagation of chaos for a MoE as the number of experts diverges. We demonstrate that the corresponding empirical measure of their parameters is close to a probability measure that solves a nonlinear continuity equation, and we provide an explicit convergence rate that depends solely on the number of experts. We apply our results to a MoE generated by a quantum neural network.
arxiv情報
著者 | Anderson Melchor Hernandez,Davide Pastorello,Giacomo De Palma |
発行日 | 2025-01-24 17:29:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google