Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models

要約

CLIP のような事前トレーニング済み視覚言語モデル (VLM) の迅速な学習は、さまざまな下流タスクにわたって強力な適用可能性を実証しています。
この軽量なアプローチは、VLM を異種シナリオに効率的に適応させようとするフェデレーテッド ラーニング (FL) 研究者の間で急速に注目を集めています。
ただし、現在のフェデレーテッド プロンプト学習方法は、通常、従来の FL パラダイムに制限されており、参加するクライアントは通常、サーバーから単一のグローバルに集約されたモデルをダウンロードすることしか許可されません。
フェデレーション設定でフルサイズのモデルをトレーニングすることは正当ですが、この研究では、このパラダイムは軽量プロンプトには不向きであると主張します。
クライアントが固定の非ローカル専門家として事前に集約された複数のプロンプトをダウンロードできるようにすることで、専門家混合 (MoE) のレンズを通してプロンプト学習プロセスをパーソナライズする新しい FL フレームワークである、適応型プロンプトのパーソナライズされたフェデレーション混合 (pFedMoAP) を提案します。

pFedMoAP は、ローカル アテンション ベースのゲーティング ネットワークを実装し、クライアント上のローカル画像データとの整合性を高めるための強化されたテキスト機能を生成することを学習し、ローカルおよびダウンロードされた非ローカル アダプティブ プロンプト エキスパートの両方から恩恵を受けます。
地元以外の専門家はサーバーが管理するプールからまばらに選ばれ、クライアント全体での共同学習を促進します。
提案されたアルゴリズムを評価するために、さまざまな異種フェデレーション設定の下で 9 つのデータセットにわたって広範な実験を実施しました。
結果は、pFedMoAP が常に最先端の代替手段より優れていることを示しており、連合学習パラダイム内で CLIP の即時学習をパーソナライズする際のその有効性を強調しています。

要約(オリジナル)

Prompt learning for pre-trained Vision-Language Models (VLMs) like CLIP has demonstrated potent applicability across diverse downstream tasks. This lightweight approach has quickly gained traction from federated learning (FL) researchers who seek to efficiently adapt VLMs to heterogeneous scenarios. However, current federated prompt learning methods are habitually restricted to the traditional FL paradigm, where the participating clients are generally only allowed to download a single globally aggregated model from the server. While justifiable for training full-sized models under federated settings, in this work, we argue that this paradigm is ill-suited for lightweight prompts. By facilitating the clients to download multiple pre-aggregated prompts as fixed non-local experts, we propose Personalized Federated Mixture of Adaptive Prompts (pFedMoAP), a novel FL framework that personalizes the prompt learning process through the lens of Mixture of Experts (MoE). pFedMoAP implements a local attention-based gating network that learns to generate enhanced text features for better alignment with local image data on the client, benefiting from both local and downloaded non-local adaptive prompt experts. The non-local experts are sparsely selected from a server-maintained pool, fostering collaborative learning across clients. To evaluate the proposed algorithm, we conduct extensive experiments across 9 datasets under various heterogeneous federated settings. The results show that pFedMoAP consistently outperforms the state-of-the-art alternatives, underscoring its efficacy in personalizing prompt learning for CLIP within the federated learning paradigm.

arxiv情報

著者 Jun Luo,Chen Chen,Shandong Wu
発行日 2024-10-16 12:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク