LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

要約

自然言語処理、複雑な推論、感情分析、その他のタスクを解決する最新の大規模言語モデル (LLM) の能力は並外れたものであり、その広範な採用を促しています。
残念ながら、これらの機能には非常に高いメモリと計算コストがかかるため、ほとんどのハードウェア プラットフォームで LLM を使用できません。
これを軽減するために、ワンショット NAS を使用して LLaMA2-7B に基づいてパレート最適ネットワーク アーキテクチャを見つける効果的な方法を提案します。
特に、LLaMA2-7B を 1 回だけ微調整し、遺伝的アルゴリズム ベースの検索を適用して、より小さく、計算の複雑さが少ないネットワーク アーキテクチャを見つけます。
特定の標準ベンチマーク タスクでは、事前トレーニングされた LLaMA2-7B ネットワークが不必要に大きくて複雑であることがわかります。
より具体的には、精度の低下は無視できる程度で、特定のタスクについてモデル サイズが 1.5 倍縮小し、スループットが 1.3 倍高速化することを実証しました。
私たちの方法は、より小さく、よりパフォーマンスの高いネットワーク アーキテクチャを見つけることに加えて、特定のプルーニングやスパース化技術よりも効果的かつ効率的にそれを行います。
最後に、量子化がどのように私たちの方法を補完するのか、そして量子化を使用すると、発見したネットワークのサイズと複雑さをさらに削減できることを示します。
私たちは、私たちの研究が、より安価で、より容易に入手可能なハードウェア プラットフォームで使用できる LLM を自動的に作成する方法を提供すると信じています。

要約(オリジナル)

The abilities of modern large language models (LLMs) in solving natural language processing, complex reasoning, sentiment analysis and other tasks have been extraordinary which has prompted their extensive adoption. Unfortunately, these abilities come with very high memory and computational costs which precludes the use of LLMs on most hardware platforms. To mitigate this, we propose an effective method of finding Pareto-optimal network architectures based on LLaMA2-7B using one-shot NAS. In particular, we fine-tune LLaMA2-7B only once and then apply genetic algorithm-based search to find smaller, less computationally complex network architectures. We show that, for certain standard benchmark tasks, the pre-trained LLaMA2-7B network is unnecessarily large and complex. More specifically, we demonstrate a 1.5x reduction in model size and 1.3x speedup in throughput for certain tasks with negligible drop in accuracy. In addition to finding smaller, higher-performing network architectures, our method does so more effectively and efficiently than certain pruning or sparsification techniques. Finally, we demonstrate how quantization is complementary to our method and that the size and complexity of the networks we find can be further decreased using quantization. We believe that our work provides a way to automatically create LLMs which can be used on less expensive and more readily available hardware platforms.

arxiv情報

著者 Anthony Sarah,Sharath Nittur Sridhar,Maciej Szankin,Sairam Sundaresan
発行日 2024-05-28 17:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク