Is Hyper-Parameter Optimization Different for Software Analytics?

要約

はい。
SE データは、(従来の AI データ セットと比較して) クラス間に「より滑らかな」境界を持つことができます。
より正確には、SE データに含まれる損失関数の 2 次導関数の大きさは、通常ははるかに小さくなります。
SMOOTHIE と呼ばれる新しいハイパーパラメータ オプティマイザは、SE データのこの特異性を利用できます。
SMOOTHIE と最先端の AI ハイパーパラメーター オプティマイザーを次の 3 つのタスクで比較します。(a) GitHub 問題の存続期間予測 (b) 静的コード警告の誤報の検出。
(c) 欠陥の予測。
完全を期すために、いくつかの標準 AI データセットでの実験も示します。
SMOOTHIE は、SE データに対してより高速に実行され、より適切に予測されますが、非 SE データと AI ツールを結び付けます。
したがって、SE データは他の種類のデータとは異なる可能性があると結論付けます。
これらの違いは、データに対して異なる種類のアルゴリズムを使用する必要があることを意味します。
オープン サイエンスやこの分野で活動する他の研究者をサポートするために、すべてのスクリプトとデータセットは https://github.com/yrahul3910/smoothness-hpo/ でオンラインで入手できます。

要約(オリジナル)

Yes. SE data can have ‘smoother’ boundaries between classes (compared to traditional AI data sets). To be more precise, the magnitude of the second derivative of the loss function found in SE data is typically much smaller. A new hyper-parameter optimizer, called SMOOTHIE, can exploit this idiosyncrasy of SE data. We compare SMOOTHIE and a state-of-the-art AI hyper-parameter optimizer on three tasks: (a) GitHub issue lifetime prediction (b) detecting static code warnings false alarm; (c) defect prediction. For completeness, we also show experiments on some standard AI datasets. SMOOTHIE runs faster and predicts better on the SE data–but ties on non-SE data with the AI tool. Hence we conclude that SE data can be different to other kinds of data; and those differences mean that we should use different kinds of algorithms for our data. To support open science and other researchers working in this area, all our scripts and datasets are available on-line at https://github.com/yrahul3910/smoothness-hpo/.

arxiv情報

著者 Rahul Yedida,Tim Menzies
発行日 2024-11-25 18:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク