Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches

要約

2019 年に GPT2–1.5B が発明されて以来、大規模言語モデル (LLM) は特殊なモデルから汎用性の高い基盤モデルに移行してきました。
LLM は優れたゼロショット能力を示しますが、展開にはローカル データセットと大量のリソースを微調整する必要があります。
一次オプティマイザを使用した従来の微調整手法では、主流のハードウェア能力を超える大量の GPU メモリが必要です。
したがって、メモリ効率の高い方法が研究されるようになっています。
モデル圧縮技術は、エネルギー消費、運用コスト、環境への影響を削減し、持続可能な人工知能の進歩をサポートします。
さらに、大規模な基盤モデルが画像、音声、ビデオ、およびマルチモーダル コンテンツを作成するために拡張されており、効率的な展開の必要性がさらに強調されています。
したがって、私たちは、ネットワーク エッジ上で普及しているメモリ効率の高い微調整方法の包括的な概要を提示したいと考えています。
また、ネットワーク エッジ上での LLM の展開に関するビジョンを提供するために、モデル圧縮に関する最先端の文献もレビューします。

要約(オリジナル)

Since the invention of GPT2–1.5B in 2019, large language models (LLMs) have transitioned from specialized models to versatile foundation models. The LLMs exhibit impressive zero-shot ability, however, require fine-tuning on local datasets and significant resources for deployment. Traditional fine-tuning techniques with the first-order optimizers require substantial GPU memory that exceeds mainstream hardware capability. Therefore, memory-efficient methods are motivated to be investigated. Model compression techniques can reduce energy consumption, operational costs, and environmental impact so that to support sustainable artificial intelligence advancements. Additionally, large-scale foundation models have expanded to create images, audio, videos, and multi-modal contents, further emphasizing the need for efficient deployment. Therefore, we are motivated to present a comprehensive overview of the prevalent memory-efficient fine-tuning methods over the network edge. We also review the state-of-the-art literatures on model compression to provide a vision on deploying LLMs over the network edge.

arxiv情報

著者 Yanjie Dong,Haijun Zhang,Chengming Li,Song Guo,Victor C. M. Leung,Xiping Hu
発行日 2024-10-01 08:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク