要約
言語モデルのサイズが拡大しているため、レイテンシ、エネルギー消費、GPU メモリの使用量、パフォーマンスなど、さまざまなハードウェア メトリクス間のトレードオフに関する要望を反映する、さまざまな側面にわたる包括的な検査の必要性が生じています。
指定されたハードウェア制約を持つ最適なモデルを特定するために、さまざまな言語モデル構成のパレート フロンティアを確立することへの関心が高まっています。
特に、あるデバイスでは遅延に優れたアーキテクチャが、別のデバイスでは最適に動作しない可能性があります。
ただし、さまざまなハードウェア構成にわたる多数のアーキテクチャの徹底的なトレーニングと評価は、計算量が法外です。
この目的を達成するために、ハードウェア対応の言語モデル サロゲート ベンチマークである HW-GPT-Bench を提案します。このベンチマークでは、ニューラル アーキテクチャ検索 (NAS) の重み共有技術を利用して、さまざまなスケールの言語モデルを網羅するスーパーネット プロキシを効率的にトレーニングします。
シングルモデル。
5 つのハードウェア メトリクスと 3 つの異なるモデル スケールを考慮して、13 のデバイスにわたってこれらのモデルのプロファイリングを実施します。
最後に、8 つの異なる多目的 NAS アルゴリズムを使用して HW-GPT-Bench の使いやすさを紹介し、結果として得られるパレート フロントの品質を評価します。
このベンチマークを通じて、私たちの目的は、NAS および大規模言語モデルにおける構造枝刈りのための多目的手法の進歩における研究を推進し、促進することです。
要約(オリジナル)
The expanding size of language models has created the necessity for a comprehensive examination across various dimensions that reflect the desiderata with respect to the tradeoffs between various hardware metrics, such as latency, energy consumption, GPU memory usage, and performance. There is a growing interest in establishing Pareto frontiers for different language model configurations to identify optimal models with specified hardware constraints. Notably, architectures that excel in latency on one device may not perform optimally on another. However, exhaustive training and evaluation of numerous architectures across diverse hardware configurations is computationally prohibitive. To this end, we propose HW-GPT-Bench, a hardware-aware language model surrogate benchmark, where we leverage weight-sharing techniques from Neural Architecture Search (NAS) to efficiently train a supernet proxy, encompassing language models of varying scales in a single model. We conduct profiling of these models across 13 devices, considering 5 hardware metrics and 3 distinct model scales. Finally, we showcase the usability of HW-GPT-Bench using 8 different multi-objective NAS algorithms and evaluate the quality of the resultant Pareto fronts. Through this benchmark, our objective is to propel and expedite research in the advancement of multi-objective methods for NAS and structural pruning in large language models.
arxiv情報
著者 | Rhea Sanjay Sukthanker,Arber Zela,Benedikt Staffler,Jorg K. H. Franke,Frank Hutter |
発行日 | 2024-05-16 17:53:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google