OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training

要約

OpenDiLoCo は、大規模言語モデル用の分散低通信 (DiLoCo) トレーニング手法のオープンソース実装および複製です。
当社は DiLoCo 実験の再現可能な実装を提供し、Hivemind ライブラリを使用したスケーラブルな分散型トレーニング フレームワーク内でそれを提供します。
90 ~ 95% のコンピューティング使用率を維持しながら、2 つの大陸と 3 か国にわたってモデルをトレーニングすることで、その有効性を実証しました。
さらに、アルゴリズムの計算効率、ワーカー数のスケーラビリティに焦点を当てたアブレーション研究を実施し、FP16 を使用するとパフォーマンスを低下させることなくその勾配をすべて低減できることを示します。
さらに、OpenDiLoCo を元の作業の 3 倍のサイズに拡張し、10 億のパラメーター モデルに対するその有効性を実証しました。

要約(オリジナル)

OpenDiLoCo is an open-source implementation and replication of the Distributed Low-Communication (DiLoCo) training method for large language models. We provide a reproducible implementation of the DiLoCo experiments, offering it within a scalable, decentralized training framework using the Hivemind library. We demonstrate its effectiveness by training a model across two continents and three countries, while maintaining 90-95% compute utilization. Additionally, we conduct ablations studies focusing on the algorithm’s compute efficiency, scalability in the number of workers and show that its gradients can be all-reduced using FP16 without any performance degradation. Furthermore, we scale OpenDiLoCo to 3x the size of the original work, demonstrating its effectiveness for billion parameter models.

arxiv情報

著者 Sami Jaghouar,Jack Min Ong,Johannes Hagemann
発行日 2024-07-10 17:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク