MELTing point: Mobile Evaluation of Language Transformers

要約

トランスフォーマーは機械学習の世界に革命をもたらし、徐々に日常業務に浸透し、私たちのコンピューターに「知能の火花」を備えさせています。
ただし、ランタイム要件により、モバイルでの広範な展開が妨げられています。
個人用デバイスがますます強力になり、迅速なプライバシーがこれまで以上に差し迫った問題になる中、私たちはモバイルでの大規模言語モデル (LLM) の実行の現状を調査します。
これを実現するために、当社は独自の自動化インフラストラクチャ MELT を作成しました。これは、デバイス上での LLM のヘッドレス実行とベンチマークをサポートし、Android、iOS、Nvidia Jetson デバイスなどのさまざまなモデル、デバイス、フレームワークをサポートします。
当社は一般的な命令を微調整した LLM を評価し、さまざまなフレームワークを活用してエンドツーエンドの詳細なパフォーマンスを測定し、途中でメモリとエネルギーの要件を追跡します。
私たちの分析は、オンデバイスでの LLM 実行に関する初の体系的な研究であり、さまざまな最先端モデルにわたるパフォーマンス、エネルギー効率、精度を定量化し、ハイパースケール モデルの時代におけるオンデバイス インテリジェンスの状態を示しています。
結果は、ターゲット間のパフォーマンスの不均一性を強調し、LLM 推論が主にメモリに依存していることを裏付けています。
量子化によりメモリ要件が大幅に削減され、実行が可能になりますが、無視できない精度コストがかかります。
LLM のエネルギーフットプリントと熱挙動を考慮すると、両方の要因がユーザー エクスペリエンスに悪影響を与えるため、LLM を継続的に実行することは依然として困難です。
最後に、私たちの経験によれば、エコシステムはまだ初期段階にあり、ハードウェアだけでなくアルゴリズムのブレークスルーによって実行コストが大幅に変化する可能性があります。
NPU アクセラレーションとフレームワークとハードウェアの共同設計が、効率的なスタンドアロン実行に向けた最大の賭けであり、エッジ展開に合わせて調整されたオフロードの代替手段になると予想しています。

要約(オリジナル)

Transformers have revolutionized the machine learning landscape, gradually making their way into everyday tasks and equipping our computers with ‘sparks of intelligence’. However, their runtime requirements have prevented them from being broadly deployed on mobile. As personal devices become increasingly powerful and prompt privacy becomes an ever more pressing issue, we explore the current state of mobile execution of Large Language Models (LLMs). To achieve this, we have created our own automation infrastructure, MELT, which supports the headless execution and benchmarking of LLMs on device, supporting different models, devices and frameworks, including Android, iOS and Nvidia Jetson devices. We evaluate popular instruction fine-tuned LLMs and leverage different frameworks to measure their end-to-end and granular performance, tracing their memory and energy requirements along the way. Our analysis is the first systematic study of on-device LLM execution, quantifying performance, energy efficiency and accuracy across various state-of-the-art models and showcases the state of on-device intelligence in the era of hyperscale models. Results highlight the performance heterogeneity across targets and corroborates that LLM inference is largely memory-bound. Quantization drastically reduces memory requirements and renders execution viable, but at a non-negligible accuracy cost. Drawing from its energy footprint and thermal behavior, the continuous execution of LLMs remains elusive, as both factors negatively affect user experience. Last, our experience shows that the ecosystem is still in its infancy, and algorithmic as well as hardware breakthroughs can significantly shift the execution cost. We expect NPU acceleration, and framework-hardware co-design to be the biggest bet towards efficient standalone execution, with the alternative of offloading tailored towards edge deployments.

arxiv情報

著者 Stefanos Laskaridis,Kleomenis Katevas,Lorenzo Minto,Hamed Haddadi
発行日 2024-07-24 16:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク