Be aware of overfitting by hyperparameter optimization!

要約

ハイパーパラメータの最適化は、機械学習で非常に頻繁に使用されます。
ただし、大規模なパラメータ空間を最適化すると、モデルの過剰適合が発生する可能性があります。
溶解度予測に関する最近の研究で、著者らはさまざまなデータ ソースから 7 つの熱力学的および速度論的な溶解度データセットを収集しました。
彼らは最先端のグラフベースの手法を使用し、さまざまなデータ クリーニング プロトコルとハイパーパラメーターの最適化を使用して、データセットごとに開発されたモデルを比較しました。
私たちの研究では、同じ統計的尺度を使用した場合のオーバーフィッティングが原因で、ハイパーパラメーターの最適化が常により良いモデルをもたらすわけではないことが示されました。
事前に設定されたハイパーパラメータを使用して同様の結果を計算すると、計算量が約 10,000 分の 1 に削減されます。
また、Transformer CNN と呼ばれる笑顔の自然言語処理に基づく表現学習手法を追加して、以前の分析を拡張しました。
まったく同じプロトコルを使用して分析されたすべてのセットにおいて、Transformer CNN は、他の方法と比較してごくわずかな時間だけを使用して、28 のペアワイズ比較のうち 26 においてグラフベースの方法よりも優れた結果を提供したことを示します。
最後になりましたが、まったく同じ統計的尺度を使用して計算結果を比較することの重要性を強調しました。

要約(オリジナル)

Hyperparameter optimization is very frequently employed in machine learning. However, an optimization of a large space of parameters could result in overfitting of models. In recent studies on solubility prediction the authors collected seven thermodynamic and kinetic solubility datasets from different data sources. They used state-of-the-art graph-based methods and compared models developed for each dataset using different data cleaning protocols and hyperparameter optimization. In our study we showed that hyperparameter optimization did not always result in better models, possibly due to overfitting when using the same statistical measures. Similar results could be calculated using pre-set hyperparameters, reducing the computational effort by around 10,000 times. We also extended the previous analysis by adding a representation learning method based on Natural Language Processing of smiles called Transformer CNN. We show that across all analyzed sets using exactly the same protocol, Transformer CNN provided better results than graph-based methods for 26 out of 28 pairwise comparisons by using only a tiny fraction of time as compared to other methods. Last but not least we stressed the importance of comparing calculation results using exactly the same statistical measures.

arxiv情報

著者 Igor V. Tetko,Ruud van Deursen,Guillaume Godin
発行日 2024-07-30 12:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク