EM for Mixture of Linear Regression with Clustered Data

要約

最新のデータ駆動型の分散型学習フレームワークは、異種環境にまたがるクライアントによって生成された多様な大量データを処理します。
実際、データの異質性は、多くの分散学習パラダイムをスケールアップする際の大きなボトルネックとなっています。
ただし、多くの設定では、共通の潜在変数がクライアントによって生成されたすべてのサンプルの分布を制御するフェデレーテッド ラーニングなどのいくつかのアプリケーションの場合と同様、共有構造を持つクラスター内で異種データが生成されることがあります。
したがって、分散データ内の基礎となるクラスター構造を学習スキームを改善するためにどのように活用できるかを疑問に思うのは自然なことです。
この論文では、各 $m$ ノードが共有潜在変数を持つ $n$ サンプルを生成する、線形回帰の 2 成分混合問題の $d$ 次元パラメーターを推定する特殊なケースでこの問題に取り組みます。
よく知られている期待値最大化 (EM) 法を使用して、それぞれ $n$ の測定値を含む依存サンプルの $m$ バッチから最尤パラメータを推定します。
混合モデルのクラスター構造を破棄すると、EM は $O(\sqrt{d/(mn)})$ の統計精度に達するために $O(\log(mn/d))$ 回の反復を必要とすることが知られています。
対照的に、適切に初期化されていれば、$m$ が $e^{o(n)}$ に成長する限り、構造化データ上の EM は同じ統計的精度に達するのに $O(1)$ 回の反復のみを必要とすることを示します。

私たちの分析は、母集団および経験的 EM に対する新しい漸近的最適化と一般化保証を確立し、独立した関心を持つ可能性がある依存サンプルを使用して組み合わせます。

要約(オリジナル)

Modern data-driven and distributed learning frameworks deal with diverse massive data generated by clients spread across heterogeneous environments. Indeed, data heterogeneity is a major bottleneck in scaling up many distributed learning paradigms. In many settings however, heterogeneous data may be generated in clusters with shared structures, as is the case in several applications such as federated learning where a common latent variable governs the distribution of all the samples generated by a client. It is therefore natural to ask how the underlying clustered structures in distributed data can be exploited to improve learning schemes. In this paper, we tackle this question in the special case of estimating $d$-dimensional parameters of a two-component mixture of linear regressions problem where each of $m$ nodes generates $n$ samples with a shared latent variable. We employ the well-known Expectation-Maximization (EM) method to estimate the maximum likelihood parameters from $m$ batches of dependent samples each containing $n$ measurements. Discarding the clustered structure in the mixture model, EM is known to require $O(\log(mn/d))$ iterations to reach the statistical accuracy of $O(\sqrt{d/(mn)})$. In contrast, we show that if initialized properly, EM on the structured data requires only $O(1)$ iterations to reach the same statistical accuracy, as long as $m$ grows up as $e^{o(n)}$. Our analysis establishes and combines novel asymptotic optimization and generalization guarantees for population and empirical EM with dependent samples, which may be of independent interest.

arxiv情報

著者 Amirhossein Reisizadeh,Khashayar Gatmiry,Asuman Ozdaglar
発行日 2023-08-22 15:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク