Confidant: Customizing Transformer-based LLMs via Collaborative Edge Training

要約

Transformer ベースの大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクにおいて優れた機能を実証しています。
それにもかかわらず、コンピューティング、メモリ、エネルギーの予算が限られているモバイル エッジ デバイスに LLM を展開して微調整するのは困難です。
このペーパーでは、スマートフォンなどの汎用モバイル デバイス上で最先端の LLM をカスタマイズするためのマルチ バックエンド共同トレーニング フレームワークである Confidant を提案します。
Confidant は、LLM をいくつかのサブモデルに分割して、それぞれがモバイル デバイスのメモリに収まるようにします。
パイプライン並列トレーニング メカニズムがさらに開発され、高速かつ効率的な分散トレーニングが保証されます。
さらに、モバイル CPU や GPU などの異種コンピューティング ハードウェアに異なるアテンション ヘッドを割り当て、各エッジ デバイスでのコンピューティング リソースの使用率を最大化する新しいバックエンド スケジューラを提案します。
私たちの予備的な実験結果では、Confidant は実際の設定で最大 45.3% のメモリ削減と 8.03 倍の推論高速化を達成することを示しています。

要約(オリジナル)

Transformer-based large language models (LLMs) have demonstrated impressive capabilities in a variety of natural language processing (NLP) tasks. Nonetheless, it is challenging to deploy and fine-tune LLMs on mobile edge devices with limited computing, memory, and energy budgets. In this paper, we propose Confidant, a multi-backend collaborative training framework for customizing state-of-the-art LLMs on commodity mobile devices like smartphones. Confidant partitions an LLM into several sub-models so that each fits into a mobile device’s memory. A pipeline parallel training mechanism is further developed to ensure fast and efficient distributed training. In addition, we propose a novel backend scheduler to allocate different attention heads to heterogeneous compute hardware, including mobile CPU and GPUs, to maximize the compute resource utilization on each edge device. Our preliminary experimental results show that Confidant achieves at most 45.3% memory reduction and 8.03x inference speedup in practical settings.

arxiv情報

著者 Yuhao Chen,Yuxuan Yan,Qianqian Yang,Yuanchao Shu,Shibo He,Jiming Chen
発行日 2023-11-22 13:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク