PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing

要約

スケーリング法は、モデルパラメーターが増加する大規模な言語モデル(LLMS)で継続的に検証されていますが、LLMSの推論要求とEDGEデバイスの限られたリソースとの間の固有の張力は、エッジインテリジェンスの開発に重大な課題をもたらします。
最近、LLMの機能をより小さなフットプリントに蒸留することを目指して、多数の小さな言語モデルが登場しました。
ただし、これらのモデルは、多くの場合、より大きなカウンターパートの基本的な建築原理を保持しており、エッジデバイスのストレージおよび帯域幅の容量にかなりの負担をかけています。
この論文では、モデルアーキテクチャとエッジシステムの制約を共同で最適化する共同設計プロセスを通じて開発された周辺言語モデルであるPLMを紹介します。
PLMは、マルチヘッドの潜在的な注意メカニズムを利用し、Squared Relu Activation Functionを使用してスパースを促進し、それにより推論中にピークメモリフットプリントを減らします。
トレーニング中に、オープンソースデータセットを収集および再編成し、多相トレーニング戦略を実装し、ウォームアップ安定性decay-Constant(WSDC)学習率スケジューラを経験的に調査します。
さらに、牡羊座の選好学習アプローチを採用することにより、人間のフィードバック(RLHF)からの強化学習を組み込みます。
2相SFTプロセスに続いて、この方法は、一般的なタスクで2%、GSM8Kタスクで9%、コーディングタスクで11%のパフォーマンスの向上をもたらします。
その新しいアーキテクチャに加えて、評価結果は、PLMが、有効化されたパラメーターの数が最も少ない一方で、公的に利用可能なデータでトレーニングされた既存の小言語モデルよりも優れていることを示しています。
さらに、消費者グレードのGPU、携帯電話、Raspberry PISなど、さまざまなエッジデバイスに展開することで、PLMの周辺アプリケーションに対する適合性を検証します。
PLMシリーズモデルは、https://github.com/plm-team/plmで公開されています。

要約(オリジナル)

While scaling laws have been continuously validated in large language models (LLMs) with increasing model parameters, the inherent tension between the inference demands of LLMs and the limited resources of edge devices poses a critical challenge to the development of edge intelligence. Recently, numerous small language models have emerged, aiming to distill the capabilities of LLMs into smaller footprints. However, these models often retain the fundamental architectural principles of their larger counterparts, still imposing considerable strain on the storage and bandwidth capacities of edge devices. In this paper, we introduce the PLM, a Peripheral Language Model, developed through a co-design process that jointly optimizes model architecture and edge system constraints. The PLM utilizes a Multi-head Latent Attention mechanism and employs the squared ReLU activation function to encourage sparsity, thereby reducing peak memory footprint during inference. During training, we collect and reorganize open-source datasets, implement a multi-phase training strategy, and empirically investigate the Warmup-Stable-Decay-Constant (WSDC) learning rate scheduler. Additionally, we incorporate Reinforcement Learning from Human Feedback (RLHF) by adopting the ARIES preference learning approach. Following a two-phase SFT process, this method yields performance gains of 2% in general tasks, 9% in the GSM8K task, and 11% in coding tasks. In addition to its novel architecture, evaluation results demonstrate that PLM outperforms existing small language models trained on publicly available data while maintaining the lowest number of activated parameters. Furthermore, deployment across various edge devices, including consumer-grade GPUs, mobile phones, and Raspberry Pis, validates PLM’s suitability for peripheral applications. The PLM series models are publicly available at https://github.com/plm-team/PLM.

arxiv情報

著者 Cheng Deng,Luoyang Sun,Jiwen Jiang,Yongcheng Zeng,Xinjian Wu,Wenxin Zhao,Qingfa Xiao,Jiachuan Wang,Haoyang Li,Lei Chen,Lionel M. Ni,Haifeng Zhang,Jun Wang
発行日 2025-03-19 15:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク