Using Large Language Models for Hyperparameter Optimization

要約

このペーパーでは、ハイパーパラメーター最適化 (HPO) における基本的な大規模言語モデル (LLM) の使用について検討します。
ハイパーパラメータは機械学習モデルの有効性を判断する上で重要ですが、その最適化は予算が限られた設定では手動のアプローチに依存することがよくあります。
LLM にデータセットとモデルの説明を促すことで、LLM がハイパーパラメーター構成を提案し、モデルのパフォーマンスに基づいて反復的に改良される方法論を開発します。
標準ベンチマークでの実証的評価により、LLM は、制約された検索予算内で、標準ベンチマークのさまざまなモデルにわたるベイジアン最適化などの従来の HPO 手法と同等またはそれを上回るパフォーマンスを発揮できることが明らかになりました。
さらに、モデルを指定するコードをハイパーパラメーターとして扱うことを提案します。LLM が出力するので、既存の HPO アプローチよりも高い柔軟性が得られます。

要約(オリジナル)

This paper explores the use of foundational large language models (LLMs) in hyperparameter optimization (HPO). Hyperparameters are critical in determining the effectiveness of machine learning models, yet their optimization often relies on manual approaches in limited-budget settings. By prompting LLMs with dataset and model descriptions, we develop a methodology where LLMs suggest hyperparameter configurations, which are iteratively refined based on model performance. Our empirical evaluations on standard benchmarks reveal that within constrained search budgets, LLMs can match or outperform traditional HPO methods like Bayesian optimization across different models on standard benchmarks. Furthermore, we propose to treat the code specifying our model as a hyperparameter, which the LLM outputs and affords greater flexibility than existing HPO approaches.

arxiv情報

著者 Michael R. Zhang,Nishkrit Desai,Juhan Bae,Jonathan Lorraine,Jimmy Ba
発行日 2024-11-11 17:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク