Efficient Federated Finetuning of Tiny Transformers with Resource-Constrained Devices

要約

近年、Transformer 構造を介した Large Language Model (LLM) が、多くの機械学習タスク、特にテキスト処理を支配しています。
ただし、これらのモデルはトレーニングに大量のデータを必要とし、特に多数の浮動小数点演算 (FLOP) と必要な大量のメモリの点で、高いリソース要件が発生します。
このようなモデルをパラメーター効率の高い方法で微調整するために、Adapter や LoRA などの技術が開発されました。
ただし、LoRA をフェデレーテッド ラーニング (FL) で使用すると、パラメーター効率は高いものの、メモリと FLOP の効率が低下することがわかりました。
その観察に基づいて、私たちは、クロスデバイス FL 内のデバイスが、所定のリソース制約を遵守しながら、事前学習済みのニューラル ネットワーク (NN) を利用できるようにする、新しいレイヤー微調整スキームを開発します。
私たちが提示したスキームは、同種または異種の計算とメモリの制約を扱う場合に現在の最先端技術を上回り、限られた通信に関してはLoRAと同等であるため、FLトレーニングで大幅に高い精度を達成できることを示します。

要約(オリジナル)

In recent years, Large Language Models (LLMs) through Transformer structures have dominated many machine learning tasks, especially text processing. However, these models require massive amounts of data for training and induce high resource requirements, particularly in terms of the large number of Floating Point Operations (FLOPs) and the high amounts of memory needed. To fine-tune such a model in a parameter-efficient way, techniques like Adapter or LoRA have been developed. However, we observe that the application of LoRA, when used in federated learning (FL), while still being parameter-efficient, is memory and FLOP inefficient. Based on that observation, we develop a novel layer finetuning scheme that allows devices in cross-device FL to make use of pretrained neural networks (NNs) while adhering to given resource constraints. We show that our presented scheme outperforms the current state of the art when dealing with homogeneous or heterogeneous computation and memory constraints and is on par with LoRA regarding limited communication, thereby achieving significantly higher accuracies in FL training.

arxiv情報

著者 Kilian Pfeiffer,Mohamed Aboelenien Ahmed,Ramin Khalili,Jörg Henkel
発行日 2024-11-12 14:22:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク