PWC-MoE: Privacy-Aware Wireless Collaborative Mixture of Experts

要約

クラウドサーバーでホストされている大規模な言語モデル(LLMS)は、ローカルデバイスの計算およびストレージの負担を軽減しますが、機密性の高いデータ送信によりプライバシーの懸念を引き起こし、制約された環境で困難な実質的な通信帯域幅を必要とします。
対照的に、小言語モデル(SLM)は局所的にプライバシーを強化しますが、複雑なタスクでのパフォーマンスは限られています。
帯域幅の制約の下での計算コスト、パフォーマンス、プライバシー保護のバランスをとるために、専門家(PWC-MOE)フレームワークのプライバシー認識ワイヤレス共同混合物を提案します。
具体的には、PWC-MOEはまばらなプライバシーを認識しているゲーティングネットワークを採用して、地元のクライアントにあるプライバシー専門家に敏感なトークンを動的にルーティングしますが、非感受性トークンはリモートベースステーションにある非依存の専門家にルーティングされます。
計算効率を達成するために、ゲーティングネットワークは、各トークンが1人の専門家に動的にルーティングされ、処理されることを保証します。
スケーラビリティを強化し、特定の専門家の過負荷を防ぐために、プライバシーの専門家の間で敏感なトークンを均等に配布し、非依存の専門家の間で非感受性トークンを均等に配布するグループごとの負荷分散メカニズムを導入します。
モデルのパフォーマンスを維持しながら帯域幅の制約に適応するために、帯域幅に適した重要なトークンオフロードスキームを提案します。
このスキームには、非敏感なトークンの重要性スコアを評価する重要な予測因子が組み込まれており、予測された重要性と利用可能な帯域幅に基づいて、ベースステーションへの送信のための最も重要なトークンを優先します。
実験は、PWC-MoEフレームワークがプライバシーを効果的に保持し、帯域幅が制約された環境でも高性能を維持し、プライバシーに敏感で帯域幅に制限されたシナリオでLLMを展開するための実用的なソリューションを提供することを示しています。

要約(オリジナル)

Large language models (LLMs) hosted on cloud servers alleviate the computational and storage burdens on local devices but raise privacy concerns due to sensitive data transmission and require substantial communication bandwidth, which is challenging in constrained environments. In contrast, small language models (SLMs) running locally enhance privacy but suffer from limited performance on complex tasks. To balance computational cost, performance, and privacy protection under bandwidth constraints, we propose a privacy-aware wireless collaborative mixture of experts (PWC-MoE) framework. Specifically, PWC-MoE employs a sparse privacy-aware gating network to dynamically route sensitive tokens to privacy experts located on local clients, while non-sensitive tokens are routed to non-privacy experts located at the remote base station. To achieve computational efficiency, the gating network ensures that each token is dynamically routed to and processed by only one expert. To enhance scalability and prevent overloading of specific experts, we introduce a group-wise load-balancing mechanism for the gating network that evenly distributes sensitive tokens among privacy experts and non-sensitive tokens among non-privacy experts. To adapt to bandwidth constraints while preserving model performance, we propose a bandwidth-adaptive and importance-aware token offloading scheme. This scheme incorporates an importance predictor to evaluate the importance scores of non-sensitive tokens, prioritizing the most important tokens for transmission to the base station based on their predicted importance and the available bandwidth. Experiments demonstrate that the PWC-MoE framework effectively preserves privacy and maintains high performance even in bandwidth-constrained environments, offering a practical solution for deploying LLMs in privacy-sensitive and bandwidth-limited scenarios.

arxiv情報

著者 Yang Su,Na Yan,Yansha Deng,Robert Schober
発行日 2025-05-13 16:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク