Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach

要約

エッジ コンピューティング環境における大規模言語モデル (LLM) の展開を最適化することは、プライバシーと計算効率を高めるために重要です。
エッジ コンピューティングにおける効率的なワイヤレス LLM 推論に向けて、この研究では、主流のオープンソース LLM におけるさまざまな分割ポイントの影響を包括的に分析します。
これに基づいて、この研究では、モデルベース強化学習 (MBRL) からインスピレーションを得て、エッジとユーザー機器 (UE) 間の最適な分割点を決定するフレームワークを導入します。
報酬代理モデルを組み込むことにより、私たちのアプローチは頻繁なパフォーマンス評価の計算コストを大幅に削減します。
広範なシミュレーションにより、この方法がさまざまなネットワーク条件下で推論パフォーマンスと計算負荷のバランスを効果的に取り、分散設定での LLM 導入に堅牢なソリューションを提供することが実証されました。

要約(オリジナル)

Optimizing the deployment of large language models (LLMs) in edge computing environments is critical for enhancing privacy and computational efficiency. Toward efficient wireless LLM inference in edge computing, this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs. On this basis, this study introduces a framework taking inspiration from model-based reinforcement learning (MBRL) to determine the optimal splitting point across the edge and user equipment (UE). By incorporating a reward surrogate model, our approach significantly reduces the computational cost of frequent performance evaluations. Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions, providing a robust solution for LLM deployment in decentralized settings.

arxiv情報

著者 Yuxuan Chen,Rongpeng Li,Xiaoxue Yu,Zhifeng Zhao,Honggang Zhang
発行日 2024-09-11 11:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク