Merino: Entropy-driven Design for Generative Language Models on IoT Devices

要約

生成大規模な言語モデル(LLM)は、人工知能(AI)の現代時代の革新的な進歩として立っています。
ただし、インターネット(IoT)デバイスなど、リソース制約のあるハードウェアのLLMSをスケーリングするには、非自明の努力とドメインの知識が必要です。
この論文では、モバイルに優しい生成言語モデルを設計するための新しい情報エントロピーフレームワークを提案します。
設計手順全体には、数分以内にCPUで実行できる数学プログラミング(MP)問題を解決することが含まれており、ほぼゼロコストになります。
14のNLPダウンストリームタスクにまたがるメリノと呼ばれる設計されたモデルを評価し、モバイル設定の下で最先端のオートレーフレフなトランスモデルに対する競争力のあるパフォーマンスを示します。
特に、Merinoは、モデルサイズが5.5倍のNvidia Jetson Nanoで4.9倍高速である間、350mのパラメーターOPTと比較して、言語モデリングとゼロショット学習タスクの両方で同様のパフォーマンスまたは優れたパフォーマンスを達成します。

要約(オリジナル)

Generative Large Language Models (LLMs) stand as a revolutionary advancement in the modern era of artificial intelligence (AI). However, scaling down LLMs for resource-constrained hardware, such as Internet-of-Things (IoT) devices requires non-trivial efforts and domain knowledge. In this paper, we propose a novel information-entropy framework for designing mobile-friendly generative language models. The whole design procedure involves solving a mathematical programming (MP) problem, which can be done on the CPU within minutes, making it nearly zero-cost. We evaluate our designed models, termed MeRino, across fourteen NLP downstream tasks, showing their competitive performance against the state-of-the-art autoregressive transformer models under the mobile setting. Notably, MeRino achieves similar or better performance on both language modeling and zero-shot learning tasks, compared to the 350M parameter OPT while being 4.9x faster on NVIDIA Jetson Nano with 5.5x reduction in model size.

arxiv情報

著者 Youpeng Zhao,Ming Lin,Huadong Tang,Qiang Wu,Jun Wang
発行日 2025-01-27 15:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク