要約
最近、基礎モデル、特に大規模言語モデル (LLM) は、多様な命令データを微調整することでさまざまなタスクに適応する優れた能力を実証しました。
特に、フェデレーション基盤モデル (FedFM) は、非 IID データを含む多くの分散データセットを活用することにより、フェデレーテッド ラーニング (FL) 設定の下で共同でモデルを微調整するプライバシー保護方法として登場しました。
通信と計算のオーバーヘッドを軽減するために、パラメータ効率の高い方法が効率化のために導入され、一部の研究ではパーソナライゼーション方法を FedFM に適応させてユーザーの好みの調整を改善しました。
しかし、既存の研究における重大なギャップは、実世界のアプリケーションにおけるテスト時間の分布シフトが無視されていることです。また、パーソナライズされた FL でのテスト時間の分布シフトのための従来の方法は、複雑な分布シフトに適応できないため、FedFM ではあまり有効ではありません。
シナリオとすべてのパラメータをトレーニングする要件。
このギャップを埋めるために、テスト時のパーソナライゼーションと呼ばれる FedFM の設定を改良しました。これは、テスト時の分散シフトを同時に効果的に処理しながら、クライアント上でパーソナライズされたフェデレーション基盤モデルを学習することを目的としています。
この設定における課題に対処するために、シンプルでありながら効果的なソリューションである Federated Dual-Personalizing Adaptor (FedDPA) アーキテクチャを検討します。
基盤モデルと連携することにより、グローバル アダプターとローカル アダプターは共同でテスト時の分散シフトとクライアント固有のパーソナライゼーションに取り組みます。
さらに、推論中に各テスト インスタンスのグローバル アダプターとローカル アダプターを動的に統合するインスタンスごとの動的重み付けメカニズムを導入し、テスト時の効果的なパーソナライゼーションを促進します。
提案された方法の有効性は、さまざまな NLP タスクにわたるベンチマーク データセットで評価されています。
要約(オリジナル)
Recently, foundation models, particularly large language models (LLMs), have demonstrated an impressive ability to adapt to various tasks by fine-tuning diverse instruction data. Notably, federated foundation models (FedFM) emerge as a privacy preservation method to fine-tune models collaboratively under federated learning (FL) settings by leveraging many distributed datasets with non-IID data. To alleviate communication and computation overhead, parameter-efficient methods are introduced for efficiency, and some research adapted personalization methods to FedFM for better user preferences alignment. However, a critical gap in existing research is the neglect of test-time distribution shifts in real-world applications, and conventional methods for test-time distribution shifts in personalized FL are less effective for FedFM due to their failure to adapt to complex distribution shift scenarios and the requirement to train all parameters. To bridge this gap, we refine the setting in FedFM, termed test-time personalization, which aims to learn personalized federated foundation models on clients while effectively handling test-time distribution shifts simultaneously. To address challenges in this setting, we explore a simple yet effective solution, a Federated Dual-Personalizing Adapter (FedDPA) architecture. By co-working with a foundation model, a global adapter and a local adapter jointly tackle the test-time distribution shifts and client-specific personalization. Additionally, we introduce an instance-wise dynamic weighting mechanism that dynamically integrates the global and local adapters for each test instance during inference, facilitating effective test-time personalization. The effectiveness of the proposed method has been evaluated on benchmark datasets across different NLP tasks.
arxiv情報
著者 | Yiyuan Yang,Guodong Long,Tao Shen,Jing Jiang,Michael Blumenstein |
発行日 | 2024-12-02 10:44:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google