Federated Instruction Tuning of LLMs with Domain Coverage Augmentation

要約

Federated Domain-specific structuning (FedDIT) は、サーバー側の公開データと並行してクライアント間の限定されたプライベート データを利用して命令を拡張し、最終的に特定のドメイン内でのモデルのパフォーマンスを向上させます。
FedDIT に影響を与える要因は依然として不明瞭であり、既存の命令拡張手法は主に集中型設定に焦点を当てており、分散環境は考慮されていません。
私たちの実験では、データの異質性ではなく、クライアント間のドメイン カバレッジが FedDIT のモデルのパフォーマンスを促進していることが明らかになりました。
これに応えて、私たちは、貪欲なクライアント センターの選択と検索ベースの拡張を通じてドメイン カバレッジを最適化する FedDCA を提案します。
クライアント側の計算負荷を軽減するために、FedDCA$^*$ はサーバー側の機能調整を備えた異種エンコーダーを使用します。
4 つの異なる領域 (コード、医療、金融、数学) にわたる広範な実験により、両方の方法の有効性が実証されました。
さらに、さまざまな量の公開データを利用したメモリ抽出攻撃に対するプライバシー保護についても調査します。
結果は、公開データの量とプライバシー保護能力の間に有意な相関関係がないことを示しています。
ただし、微調整ラウンドが増加するにつれて、プライバシー漏洩のリスクは減少または収束します。

要約(オリジナル)

Federated Domain-specific Instruction Tuning (FedDIT) utilizes limited cross-client private data alongside server-side public data for instruction augmentation, ultimately enhancing model performance within specific domains. While the factors affecting FedDIT remain unclear and existing instruction augmentation methods mainly focus on the centralized setting without considering the distributed environment. Our experiments reveal that the cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. In response, we propose FedDCA, which optimizes domain coverage through greedy client center selection and retrieval-based augmentation. To alleviate client-side computational burdens, FedDCA$^*$ uses heterogeneous encoders with server-side feature alignment. Extensive experiments across four distinct domains (code, medical, financial, and mathematical) substantiate the effectiveness of both methods. Additionally, we investigate privacy preservation against memory extraction attacks utilizing varying amounts of public data. Results show no significant correlation between the volume of public data and the privacy-preserving capability. However, as the fine-tuning round increases, the risk of privacy leakage reduces or converges.

arxiv情報

著者 Zezhou Wang,Yaxin Du,Zhuzhong Qian,Siheng Chen
発行日 2024-10-01 05:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG パーマリンク