要約
ランダム検索は、ハイパーパラメーターの最適化に最も広く使用されている方法の 1 つであり、深層学習モデルの成功に不可欠です。
その驚くべきパフォーマンスにもかかわらず、根底にある動作メカニズムを説明するための非ヒューリスティック理論はほとんど開発されていません。
この論文では、ランダム検索の理論的説明を示します。
\emph{散乱次元} という概念を導入します。これは、基礎となる関数の状況を記述し、ランダム検索のパフォーマンスを定量化します。
環境にノイズがない場合、ランダム検索の出力は $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T}) の確率で最適な確率値に収束することを示します。
\right)^{ \frac{1}{d_s} } \right) $、ここで $ d_s \ge 0 $ は基になる関数の散乱次元です。
観測された関数値が有界 $iid$ ノイズによって破損している場合、ランダム探索の出力は $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{
T} \right)^{ \frac{1}{d_s + 1} } \right) $.
さらに、ランダム探索の原理に基づいて、確率尺度も備えた倍加計量空間におけるリプシッツバンディット用の BLiN-MOS と呼ばれるアルゴリズムを導入し、BLiN-MOS がオーダー $ の後悔率を達成することを示します。
\widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $、ここで $d_z$ は問題のインスタンスのズーム次元です。
要約(オリジナル)
Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also endowed with a probability measure, and show that BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance.
arxiv情報
著者 | Chuying Han,Yasong Feng,Tianyu Wang |
発行日 | 2023-08-10 15:01:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google