Federated Instruction Tuning of LLMs with Domain Coverage Augmentation

要約

Federated Domain-specific structuning (FedDIT) は、限られたクライアント間のプライベート データとサーバー側のパブリック データを命令拡張に利用し、最終的には特定のドメイン内でモデルのパフォーマンスを向上させます。
現在までのところ、FedDIT に影響を与える要因は不明であり、既存の命令拡張手法は分散環境を考慮せず、主に集中設定に焦点を当てています。
私たちの実験では、データの異質性ではなく、クライアント間のドメイン カバレッジが FedDIT のモデルのパフォーマンスを促進していることが明らかになりました。
これに応えて、私たちは、貪欲なクライアント センターの選択と検索ベースの拡張を通じてドメイン カバレッジを最適化する FedDCA を提案します。
クライアント側の計算効率とシステムの拡張性を高めるために、FedDCA のバリアントである FedDCA$^*$ は、サーバー側の機能調整を備えた異種エンコーダーを利用します。
4 つの異なる領域 (コード、医療、金融、数学) にわたる広範な実験により、両方の方法の有効性が実証されました。
さらに、さまざまな量の公開データを利用したメモリ抽出攻撃に対するプライバシー保護についても調査します。
結果は、公開データの量とプライバシー保護能力の間に有意な相関関係がないことを示しています。
ただし、微調整ラウンドが増加するにつれて、プライバシー漏洩のリスクは減少または収束します。

要約(オリジナル)

Federated Domain-specific Instruction Tuning (FedDIT) utilizes limited cross-client private data together with server-side public data for instruction augmentation, ultimately boosting model performance within specific domains. To date, the factors affecting FedDIT remain unclear, and existing instruction augmentation methods primarily focus on the centralized setting without considering distributed environments. Our experiments reveal that the cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. In response, we propose FedDCA, which optimizes domain coverage through greedy client center selection and retrieval-based augmentation. For client-side computational efficiency and system scalability, FedDCA$^*$, the variant of FedDCA, utilizes heterogeneous encoders with server-side feature alignment. Extensive experiments across four distinct domains (code, medical, financial, and mathematical) substantiate the effectiveness of both methods. Additionally, we investigate privacy preservation against memory extraction attacks utilizing various amounts of public data. Results show that there is no significant correlation between the volume of public data and the privacy-preserving capability. However, as the fine-tuning rounds increase, the risk of privacy leakage reduces or converges.

arxiv情報

著者 Zezhou Wang,Yaxin Du,Zhuzhong Qian,Siheng Chen
発行日 2024-10-02 08:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG パーマリンク