Optimal Data Splitting in Distributed Optimization for Machine Learning

要約

分散最適化問題は、最近ますます関連性が高まっています。
非分散方式に比べて大量のデータを短時間で処理できるなど、多くのメリットがあります。
ただし、ほとんどの分散アプローチには、通信コストという重大なボトルネックがあります。
したがって、最近、この問題を解決するために大量の研究が行われています。
そのようなアプローチの 1 つは、ローカル データの類似性を使用します。
特に、類似性特性を最適に利用することが証明されているアルゴリズムが存在します。
しかし、この結果は、他の研究の結果と同様に、通信がローカル コンピューティングよりも大幅に高価であるという事実のみに焦点を当て、ネットワーク デバイスのさまざまな容量や、通信時間と通信時間の異なる関係を考慮していないため、通信ボトルネックを解決しています。
ローカルコンピューティング費用。
私たちはこの設定を検討しており、この研究の目的は、通信とローカル計算のコストを考慮して、サーバーとローカル マシン間の分散データの最適な比率を達成することです。
ネットワークの実行時間は、均一な分布と最適な分布の間で比較されます。
当社のソリューションの優れた理論的パフォーマンスは実験的に検証されています。

要約(オリジナル)

The distributed optimization problem has become increasingly relevant recently. It has a lot of advantages such as processing a large amount of data in less time compared to non-distributed methods. However, most distributed approaches suffer from a significant bottleneck – the cost of communications. Therefore, a large amount of research has recently been directed at solving this problem. One such approach uses local data similarity. In particular, there exists an algorithm provably optimally exploiting the similarity property. But this result, as well as results from other works solve the communication bottleneck by focusing only on the fact that communication is significantly more expensive than local computing and does not take into account the various capacities of network devices and the different relationship between communication time and local computing expenses. We consider this setup and the objective of this study is to achieve an optimal ratio of distributed data between the server and local machines for any costs of communications and local computations. The running times of the network are compared between uniform and optimal distributions. The superior theoretical performance of our solutions is experimentally validated.

arxiv情報

著者 Daniil Medyakov,Gleb Molodtsov,Aleksandr Beznosikov,Alexander Gasnikov
発行日 2024-03-26 17:29:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク