要約
データ並列 SGD は、分散最適化、特に大規模な機械学習のための事実上のアルゴリズムです。
そのメリットにもかかわらず、通信のボトルネックは永続的な問題の 1 つです。
これを軽減する圧縮方式のほとんどは、ノイズのない通信リンクを前提としているか、実際のタスクで良好なパフォーマンスを達成できません。
このペーパーでは、このギャップを埋め、LASER: ワイヤレス分散最適化における LineAr CompreSsion を紹介します。
LASER は、勾配の固有の低ランク構造を利用し、ノイズの多いチャネル上で勾配を効率的に送信します。
LASER は、従来の SGD と同様の理論上の保証を享受しながら、さまざまな実際のベンチマークでベースラインを上回る一貫した向上を示しています。
特に、困難なコンピューター ビジョンや GPT 言語モデリング タスクにおいては、最先端の圧縮スキームよりも優れたパフォーマンスを発揮します。
後者では、ノイズの多いチャネルのベースラインと比較して、混乱度が $50$ ~ $64 \%$ 改善されました。
要約(オリジナル)
Data-parallel SGD is the de facto algorithm for distributed optimization, especially for large scale machine learning. Despite its merits, communication bottleneck is one of its persistent issues. Most compression schemes to alleviate this either assume noiseless communication links, or fail to achieve good performance on practical tasks. In this paper, we close this gap and introduce LASER: LineAr CompreSsion in WirEless DistRibuted Optimization. LASER capitalizes on the inherent low-rank structure of gradients and transmits them efficiently over the noisy channels. Whilst enjoying theoretical guarantees similar to those of the classical SGD, LASER shows consistent gains over baselines on a variety of practical benchmarks. In particular, it outperforms the state-of-the-art compression schemes on challenging computer vision and GPT language modeling tasks. On the latter, we obtain $50$-$64 \%$ improvement in perplexity over our baselines for noisy channels.
arxiv情報
著者 | Ashok Vardhan Makkuva,Marco Bondaschi,Thijs Vogels,Martin Jaggi,Hyeji Kim,Michael C. Gastpar |
発行日 | 2024-02-06 15:22:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google