HDEE: Heterogeneous Domain Expert Ensemble

要約

密なLLMSのトレーニングには、膨大な量のデータと集中型コンピューティングが必要であり、これにより、基本的なボトルネックと大規模なモデルに増え続けるコストが導入されます。
いくつかの研究は、トレーニング密集したモデルの通信オーバーヘッドを減らすことにより、集中化へのこの依存を減らすことを目指しています。
小さな独立した専門家の恥ずかしいほど並行可能なアンサンブルを訓練することにより、コミュニケーションを自然に極端に縮小するというこのアイデアをとることは、従来の集中環境で訓練された大きな密なモデルを上回ることが示されています。
ただし、既存の研究では、データドメイン間の根本的な違いを考慮していないため、それらの根底にある複雑さ、サイズ、または分布に関係なく、それらをモノリシックとして扱います。
この論文では、ドメインの専門家モデルのこれらのアンサンブルに不均一性を導入する効果を調査します。
具体的には、アンサンブル内のモデルがサイズが異なるようにすることにより、トレーニングデータのドメインに応じて取得するトレーニング手順の数と同様に、トレーニングセットに含まれ、除外されたドメインに対して評価された場合に、これらのアンサンブルに対する不均一性の影響を調査します。
同じ計算予算を使用して、比較のために不均一なアンサンブルと均質なベースラインをトレーニングします。
不均一なアンサンブルは、評価で使用されている21ドルのデータドメインのうち20ドルで最低の困惑スコアを達成することを示しています。
私たちのコードは、https://github.com/gensyn-ai/hdeeで入手できます。

要約(オリジナル)

Training dense LLMs requires enormous amounts of data and centralized compute, which introduces fundamental bottlenecks and ever-growing costs for large models. Several studies aim to reduce this dependency on centralization by reducing the communication overhead of training dense models. Taking this idea of reducing communication overhead to a natural extreme, by training embarrassingly parallelizable ensembles of small independent experts, has been shown to outperform large dense models trained in traditional centralized settings. However, existing studies do not take into account underlying differences amongst data domains and treat them as monolithic, regardless of their underlying complexity, size, or distribution. In this paper, we explore the effects of introducing heterogeneity to these ensembles of domain expert models. Specifically, by allowing models within the ensemble to vary in size–as well as the number of training steps taken depending on the training data’s domain–we study the effect heterogeneity has on these ensembles when evaluated against domains included in, and excluded from, the training set. We use the same compute budget to train heterogeneous ensembles and homogeneous baselines for comparison. We show that the heterogeneous ensembles achieve the lowest perplexity scores in $20$ out of the $21$ data domains used in the evaluation. Our code is available at https://github.com/gensyn-ai/hdee.

arxiv情報

著者 Oğuzhan Ersoy,Jari Kolehmainen,Gabriel Passamani Andrade
発行日 2025-02-26 18:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク