A Hassle-free Algorithm for Private Learning in Practice: Don’t Use Tree Aggregation, Use BLTs

要約

モバイル・キーボード・アプリケーションのためのデバイス上の言語モデルを学習するための最先端技術は、DP-Follow-the-Regularized-Leader(DP-FTRL)アルゴリズムによって、連合学習(FL)と差分プライバシー(DP)を組み合わせている。DP-FTRLは、ツリー集約と行列分解という2つのバリエーションが実際に使用されている。本稿では、最近導入されたBuffered Linear Toeplitz (BLT)メカニズムを複数参加シナリオに拡張します。我々のBLT-DP-FTRLは、木集約の使いやすさを維持しつつ、効用とプライバシーの点で行列分解と本質的に一致する。BLT-DP-FTRLを、再現可能なシミュレーション・ベンチマークとしてStackOverflowデータセットで評価し、本番FLシステムの4つのデバイス上の言語モデル・タスクで評価しました。我々の実証結果は、BLTメカニズムの利点を強調し、実世界のシナリオにおけるDPの実用性と有効性を高めるものである。

要約(オリジナル)

The state-of-the-art for training on-device language models for mobile keyboard applications combines federated learning (FL) with differential privacy (DP) via the DP-Follow-the-Regularized-Leader (DP-FTRL) algorithm. Two variants of DP-FTRL are used in practice, tree aggregation and matrix factorization. However, tree aggregation suffers from significantly suboptimal privacy/utility tradeoffs, while matrix mechanisms require expensive optimization parameterized by hard-to-estimate-in-advance constants, and high runtime memory costs.This paper extends the recently introduced Buffered Linear Toeplitz (BLT) mechanism to multi-participation scenarios. Our BLT-DP-FTRL maintains the ease-of-use advantages of tree aggregation, while essentially matching matrix factorization in terms of utility and privacy. We evaluate BLT-DP-FTRL on the StackOverflow dataset, serving as a re-producible simulation benchmark, and across four on-device language model tasks in a production FL system. Our empirical results highlight the advantages of the BLT mechanism and elevate the practicality and effectiveness of DP in real-world scenarios.

arxiv情報

著者 H. Brendan McMahan,Zheng Xu,Yanxiang Zhang
発行日 2025-01-03 18:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク