LLM Performance Predictors are good initializers for Architecture Search

要約

大規模言語モデル (LLM) は、幅広い NLP タスクを解決する上で不可欠なコンポーネントとなっています。
この研究では、LLM を使用してパフォーマンス プレディクター (PP) を構築する新しいユース ケースを検討します。これは、特定のディープ ニューラル ネットワーク アーキテクチャが与えられた場合に、下流タスクでのパフォーマンスを予測するモデルです。
私たちは、(i) 役割: LLM に割り当てられた役割の説明、(ii) 命令: パフォーマンス予測を実行するために LLM が従う一連の命令、(iii) ハイパーパラメータ: 定義で構成される LLM 用の PP プロンプトを設計します。
各アーキテクチャ固有のハイパーパラメータの説明、および (iv) デモンストレーション: サンプル アーキテクチャとその効率メトリクス、および「ゼロからのトレーニング」パフォーマンス。
機械翻訳 (MT) タスクの場合、PP プロンプト (LLM-PP) を備えた GPT-4 は、SOTA と一致する平均絶対誤差と、SOTA パフォーマンス予測子と比較してランク相関係数のわずかな低下でアーキテクチャのパフォーマンスを予測できることを発見しました。

さらに、LLM-PP からの予測を小さな回帰モデル (LLM-Distill-PP) に蒸留できることを示します。
LLM-Distill-PP モデルは、驚くべきことに LLM-PP のパフォーマンスを大幅に保持しており、パフォーマンス推定の頻繁な使用例に対するコスト効率の高い代替手段となります。
具体的には、ニューラル アーキテクチャ検索 (NAS) の場合、検索の最初の部分に LLM-Distill-PP を使用し、残りの検索ではベースライン予測子を使用する NAS 用ハイブリッド検索アルゴリズム (HS-NAS) を提案します。
HS-NAS はどのベンチマークでも SOTA NAS と非常に似たパフォーマンスを示し、検索時間をおよそ 50% 削減し、場合によってはレイテンシ、GFLOP、モデル サイズを改善することを示しています。

要約(オリジナル)

Large language models (LLMs) have become an integral component in solving a wide range of NLP tasks. In this work, we explore a novel use case of using LLMs to build performance predictors (PP): models that, given a specific deep neural network architecture, predict its performance on a downstream task. We design PP prompts for LLMs consisting of: (i) role: description of the role assigned to the LLM, (ii) instructions: set of instructions to be followed by the LLM to carry out performance prediction, (iii) hyperparameters: a definition of each architecture-specific hyperparameter and (iv) demonstrations: sample architectures along with their efficiency metrics and ‘training from scratch’ performance. For machine translation (MT) tasks, we discover that GPT-4 with our PP prompts (LLM-PP) can predict the performance of architecture with a mean absolute error matching the SOTA and a marginal degradation in rank correlation coefficient compared to SOTA performance predictors. Further, we show that the predictions from LLM-PP can be distilled to a small regression model (LLM-Distill-PP). LLM-Distill-PP models surprisingly retain the performance of LLM-PP largely and can be a cost-effective alternative for heavy use cases of performance estimation. Specifically, for neural architecture search (NAS), we propose a Hybrid-Search algorithm for NAS (HS-NAS), which uses LLM-Distill-PP for the initial part of search, resorting to the baseline predictor for rest of the search. We show that HS-NAS performs very similar to SOTA NAS across benchmarks, reduces search hours by 50% roughly, and in some cases, improves latency, GFLOPs, and model size.

arxiv情報

著者 Ganesh Jawahar,Muhammad Abdul-Mageed,Laks V. S. Lakshmanan,Dujian Ding
発行日 2023-10-25 15:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク