Error Feedback Shines when Features are Rare

要約

貪欲なスパース化 $\left({\color{green}\sf TopK}\right)$ とエラー フィードバックを使用した勾配降下法 $\left({\color{green}\sf GD}\right)$ の最初の証明を提供します。
$\left({\color{green}\sf EF}\right)$ は、分散最適化問題 $\min_{x\in を解くときに、バニラ ${\color{green}\sf GD}$ よりも優れた通信複雑性を得ることができます。
\mathbb{R}^d} {f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)}$、ここで $n$ = クライアント数、$d$
= 特徴の数、$f_1,\dots,f_n$ は滑らかな非凸関数です。
${\color{green}\sf EF}$ が Seide らによって初めて提案された 2014 年以来、集中的な研究が行われてきたにもかかわらず、この問題は現在に至るまで未解決のままです。
${\color{green}\sf EF}$ は、特徴がまれな場合、つまり、各特徴が少数のクライアントのみが所有するデータに存在する場合の領域で輝くことを示します。
主な結果を説明するために、次のようなランダム ベクトル $\hat{x}$ を見つけるには、 $\lVert {\nabla f(\hat{x})} \rVert^2 \leq \varepsilon$ が成り立つことを示します。
${\color{green}\sf Top1}$ スパーシファイアを使用した ${\color{green}\sf GD}$ と ${\color{green}\sf EF}$ には ${\cal O} \ が必要です
left(\left( L+{\color{blue}r} \sqrt{ \frac{{\color{red}c}}{n} \min \left( \frac{{\color{red}c}}{
n} \max_i L_i^2, \frac{1}{n}\sum_{i=1}^n L_i^2 \right) }\right) \frac{1}{\varepsilon} \right)$ ビットから
各ワーカーによってサーバーのみに通信されます。ここで、$L$ は $f$ の滑らかさ定数、$L_i$ は $f_i$ の滑らかさ定数、${\color{red}c}$ は次の最大数です。
任意の機能 ($1\leq {\color{red}c} \leq n$) を所有するクライアント、${\color{blue}r}$ は任意のクライアントが所有する機能の最大数 ($1\leq {\color)
{青}r} \leq d$)。
明らかに、通信の複雑さは ${\color{red}c}$ が減少するにつれて (つまり、機能が希少になるにつれて) 改善され、 ${\cal O}({\color{blue}r} よりもはるかに優れたものになる可能性があります)
同じ体制における L \frac{1}{\varepsilon})$ の通信複雑さは ${\color{green}\sf GD}$ です。

要約(オリジナル)

We provide the first proof that gradient descent $\left({\color{green}\sf GD}\right)$ with greedy sparsification $\left({\color{green}\sf TopK}\right)$ and error feedback $\left({\color{green}\sf EF}\right)$ can obtain better communication complexity than vanilla ${\color{green}\sf GD}$ when solving the distributed optimization problem $\min_{x\in \mathbb{R}^d} {f(x)=\frac{1}{n}\sum_{i=1}^n f_i(x)}$, where $n$ = # of clients, $d$ = # of features, and $f_1,\dots,f_n$ are smooth nonconvex functions. Despite intensive research since 2014 when ${\color{green}\sf EF}$ was first proposed by Seide et al., this problem remained open until now. We show that ${\color{green}\sf EF}$ shines in the regime when features are rare, i.e., when each feature is present in the data owned by a small number of clients only. To illustrate our main result, we show that in order to find a random vector $\hat{x}$ such that $\lVert {\nabla f(\hat{x})} \rVert^2 \leq \varepsilon$ in expectation, ${\color{green}\sf GD}$ with the ${\color{green}\sf Top1}$ sparsifier and ${\color{green}\sf EF}$ requires ${\cal O} \left(\left( L+{\color{blue}r} \sqrt{ \frac{{\color{red}c}}{n} \min \left( \frac{{\color{red}c}}{n} \max_i L_i^2, \frac{1}{n}\sum_{i=1}^n L_i^2 \right) }\right) \frac{1}{\varepsilon} \right)$ bits to be communicated by each worker to the server only, where $L$ is the smoothness constant of $f$, $L_i$ is the smoothness constant of $f_i$, ${\color{red}c}$ is the maximal number of clients owning any feature ($1\leq {\color{red}c} \leq n$), and ${\color{blue}r}$ is the maximal number of features owned by any client ($1\leq {\color{blue}r} \leq d$). Clearly, the communication complexity improves as ${\color{red}c}$ decreases (i.e., as features become more rare), and can be much better than the ${\cal O}({\color{blue}r} L \frac{1}{\varepsilon})$ communication complexity of ${\color{green}\sf GD}$ in the same regime.

arxiv情報

著者 Peter Richtárik,Elnur Gasanov,Konstantin Burlachenko
発行日 2023-05-24 15:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC, stat.ML パーマリンク