Federated Nearest Neighbor Machine Translation

要約

ユーザーのプライバシーを保護し、法的規制を満たすために、フェデレーテッド ラーニング (FL) が大きな注目を集めています。
従来の FL アルゴリズム (FedAvg など) を使用したニューラル機械翻訳 (NMT) モデルのトレーニングは、通常、マルチラウンドのモデルベースの相互作用に依存しています。
ただし、膨大な通信オーバーヘッドと重い同期のため、機械翻訳タスクには非現実的で非効率的です。
この論文では、マルチラウンドのモデルベースの相互作用の代わりに、1 ラウンドの記憶ベースの相互作用を活用して、さまざまなクライアント間で知識を共有し、オーバーヘッドの少ないプライバシーを構築する、新しい連合最近傍 (FedNN) 機械翻訳フレームワークを提案します。
システムの保存。
全体のアプローチは、アクセス可能な大規模データでトレーニングされたパブリック NMT モデルに $k$-nearest-neighbor ($$kNN) 分類器を装備し、すべてのクライアントのプライベート テキスト データによって構築された外部データストアを統合して、最終的な FL モデルを形成します。
このプロセス中にプライバシーを保護するために、2 フェーズのデータ​​ストア暗号化戦略が導入されています。
広範な実験により、FedNN は FedAvg と比較して計算コストと通信コストを大幅に削減しながら、さまざまな FL 設定で有望なパフォーマンスを維持することが示されています。

要約(オリジナル)

To protect user privacy and meet legal regulations, federated learning (FL) is attracting significant attention. Training neural machine translation (NMT) models with traditional FL algorithm (e.g., FedAvg) typically relies on multi-round model-based interactions. However, it is impractical and inefficient for machine translation tasks due to the vast communication overheads and heavy synchronization. In this paper, we propose a novel federated nearest neighbor (FedNN) machine translation framework that, instead of multi-round model-based interactions, leverages one-round memorization-based interaction to share knowledge across different clients to build low-overhead privacy-preserving systems. The whole approach equips the public NMT model trained on large-scale accessible data with a $k$-nearest-neighbor ($$kNN) classifier and integrates the external datastore constructed by private text data in all clients to form the final FL model. A two-phase datastore encryption strategy is introduced to achieve privacy-preserving during this process. Extensive experiments show that FedNN significantly reduces computational and communication costs compared with FedAvg, while maintaining promising performance in different FL settings.

arxiv情報

著者 Yichao Du,Zhirui Zhang,Bingzhe Wu,Lemao Liu,Tong Xu,Enhong Chen
発行日 2023-02-23 18:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク