Differential error feedback for communication-efficient decentralized learning

要約

分散学習と最適化のための通信に制約のあるアルゴリズムは、圧縮信号の交換と組み合わせたローカル更新に依存します。
これに関連して、差分量子化は、連続する反復間の相関を利用して圧縮の悪影響を軽減する効果的な手法です。
さらに、圧縮エラーを後続のステップに組み込むエラー フィードバックの使用は、圧縮によって生じるバイアスを補償する強力なメカニズムです。
エラーフィードバックの下で、文献における性能保証はこれまでのところ、フュージョンセンター、または有限のビット数では実装できない特別なクラスの収縮圧縮器を使用するアルゴリズムに焦点を当ててきました。
この研究では、差分量子化と誤差フィードバックを組み合わせた、新しい分散型通信効率学習アプローチを提案します。
このアプローチは、ネットワーク全体のミニマイザーが低次元の部分空間に存在することを必要とする部分空間の制約を最小化するための個別のリスク関数をエージェントが持つ分散学習問題に特化して調整されています。
この制約された定式化には、特殊なケースとしてコンセンサスまたはシングルタスクの最適化が含まれており、マルチタスクのスムーズさや結合最適化などのより一般的なタスク関連性モデルが可能になります。
圧縮ノイズに関するいくつかの一般的な条件下で、ステップサイズ $\mu$ が十分に小さい場合、結果として得られる通信効率の高い戦略は、平均二乗誤差と平均ビットレートの両方の点で安定していることを示します。
mu$ を使用すると、$\mu\rightarrow 0$ のようにビット レートを無制限に増加させることなく、推定誤差を小さく ($\mu$ 程度) に保つことができます。
この結果は、小さいステップ サイズ領域および有限ビット数で、圧縮なしで達成可能なパフォーマンスを達成できることを証明しています。

要約(オリジナル)

Communication-constrained algorithms for decentralized learning and optimization rely on local updates coupled with the exchange of compressed signals. In this context, differential quantization is an effective technique to mitigate the negative impact of compression by leveraging correlations between successive iterates. In addition, the use of error feedback, which consists of incorporating the compression error into subsequent steps, is a powerful mechanism to compensate for the bias caused by the compression. Under error feedback, performance guarantees in the literature have so far focused on algorithms employing a fusion center or a special class of contractive compressors that cannot be implemented with a finite number of bits. In this work, we propose a new decentralized communication-efficient learning approach that blends differential quantization with error feedback. The approach is specifically tailored for decentralized learning problems where agents have individual risk functions to minimize subject to subspace constraints that require the minimizers across the network to lie in low-dimensional subspaces. This constrained formulation includes consensus or single-task optimization as special cases, and allows for more general task relatedness models such as multitask smoothness and coupled optimization. We show that, under some general conditions on the compression noise, and for sufficiently small step-sizes $\mu$, the resulting communication-efficient strategy is stable both in terms of mean-square error and average bit rate: by reducing $\mu$, it is possible to keep the estimation errors small (on the order of $\mu$) without increasing indefinitely the bit rate as $\mu\rightarrow 0$. The results establish that, in the small step-size regime and with a finite number of bits, it is possible to attain the performance achievable in the absence of compression.

arxiv情報

著者 Roula Nassif,Stefan Vlaski,Marco Carpentiero,Vincenzo Matta,Ali H. Sayed
発行日 2024-06-26 15:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, eess.SP パーマリンク