Sample complexity of data-driven tuning of model hyperparameters in neural networks with structured parameter-dependent dual function

要約

最新の機械学習アルゴリズム、特に深い学習ベースの手法では、通常、最高のパフォーマンスを実現するために慎重なハイパーパラメーターチューニングが含まれます。
ベイジアンの最適化や、この骨の折れる集中的なタスクを自動化するためのランダム検索ベースのアプローチなどの実用的な手法に強い関心が急増しているにもかかわらず、深いニューラルネットワークのハイパーパラメーターを調整する基本的な学習理論的複雑さはよく理解されていません。
この明白なギャップに触発されて、最近導入されたデータ駆動型の設定を通じて、深い学習におけるハイパーパラメーターの調整の複雑さの正式な研究を開始します。
一連の深い学習タスクがあると仮定しており、タスクの分布よりも平均してハイパーパラメーターを調整する必要があります。
主な難しさは、ハイパーパラメーターの関数としてのユーティリティ関数が非常に揮発性であり、さらに、モデルパラメーターの最適化問題によって暗黙的に与えられることです。
この課題に取り組むために、ハイパーパラメーターを変化させる際に、固定問題インスタンスでユーティリティ関数の不連続性と振動を特徴付ける新しい手法を紹介します。
私たちの分析は、微分/代数幾何学や制約された最適化からのツールなど、微妙な概念に依存しています。
これを使用して、対応するユーティリティ関数ファミリーの学習理論的複雑さが境界を尽くしていることを示すことができます。
結果をインスタンス化し、具体的なアプリケーションのサンプルの複雑さの境界を提供し、神経活性化機能を補間し、グラフニューラルネットワークのカーネルパラメーターを設定するハイパーパラメーターを調整します。

要約(オリジナル)

Modern machine learning algorithms, especially deep learning based techniques, typically involve careful hyperparameter tuning to achieve the best performance. Despite the surge of intense interest in practical techniques like Bayesian optimization and random search based approaches to automating this laborious and compute intensive task, the fundamental learning theoretic complexity of tuning hyperparameters for deep neural networks is poorly understood. Inspired by this glaring gap, we initiate the formal study of hyperparameter tuning complexity in deep learning through a recently introduced data driven setting. We assume that we have a series of deep learning tasks, and we have to tune hyperparameters to do well on average over the distribution of tasks. A major difficulty is that the utility function as a function of the hyperparameter is very volatile and furthermore, it is given implicitly by an optimization problem over the model parameters. To tackle this challenge, we introduce a new technique to characterize the discontinuities and oscillations of the utility function on any fixed problem instance as we vary the hyperparameter; our analysis relies on subtle concepts including tools from differential/algebraic geometry and constrained optimization. This can be used to show that the learning theoretic complexity of the corresponding family of utility functions is bounded. We instantiate our results and provide sample complexity bounds for concrete applications tuning a hyperparameter that interpolates neural activation functions and setting the kernel parameter in graph neural networks.

arxiv情報

著者 Maria-Florina Balcan,Anh Tuan Nguyen,Dravyansh Sharma
発行日 2025-02-12 18:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク