Using Large Language Models for Hyperparameter Optimization

要約

この論文では、ハイパーパラメータ最適化 (HPO) 中に意思決定を行うための基本的な大規模言語モデル (LLM) の使用について研究します。
経験的評価により、検索予算が制限された設定では、LLM が標準ベンチマークでランダム検索やベイジアン最適化などの従来の HPO 手法と同等以上のパフォーマンスを発揮できることが実証されています。
さらに、既存の HPO アプローチの機能を超えて、モデルを指定するコードを LLM が出力するハイパーパラメーターとして扱うことを提案します。
私たちの調査結果は、LLM がハイパーパラメータ最適化という従来の意思決定問題における効率を向上させるための有望なツールであることを示唆しています。

要約(オリジナル)

This paper studies using foundational large language models (LLMs) to make decisions during hyperparameter optimization (HPO). Empirical evaluations demonstrate that in settings with constrained search budgets, LLMs can perform comparably or better than traditional HPO methods like random search and Bayesian optimization on standard benchmarks. Furthermore, we propose to treat the code specifying our model as a hyperparameter, which the LLM outputs, going beyond the capabilities of existing HPO approaches. Our findings suggest that LLMs are a promising tool for improving efficiency in the traditional decision-making problem of hyperparameter optimization.

arxiv情報

著者 Michael R. Zhang,Nishkrit Desai,Juhan Bae,Jonathan Lorraine,Jimmy Ba
発行日 2023-12-07 18:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク