Learning from Very Little Data: On the Value of Landscape Analysis for Predicting Software Project Health

要約

データが不足している場合、ソフトウェア分析は多くの間違いを犯す可能性があります。
たとえば、オープンソース プロジェクトの健全性に関する予測変数 (12 か月以内にクローズされたプル リクエストの数など) を学習することを検討してください。
このタスクのトレーニング データは非常に小さい場合があります (たとえば、毎月収集される 5 年間のデータは、トレーニング データのわずか 60 行を意味します)。
このような小さなデータセットから生成されたモデルは、多くの予測エラーを引き起こす可能性があります。
これらのエラーは、より適切な学習者制御パラメーターを選択する {\em ランドスケープ分析} によって抑制できます。
私たちの niSNEAK ツールは、(a) データをクラスタリングして、ハイパーパラメータの全体的な状況を見つけます。
次に、(b)~その風景の各部分からいくつかの代表的なものを探索します。
niSNEAK は、従来の最先端のハイパーパラメータ最適化アルゴリズム (FLASH、HYPEROPT、OPTUNA など) よりも高速かつ効果的です。
niSNEAK によって検出された構成は、他の方法よりもエラーがはるかに少なくなります。
たとえば、$C$= コミット数などのプロジェクトの健全性指標の場合、
$I$=クローズされた問題の数、$R$=クローズされたプルリクエストの数、niSNEAK の 12 か月の予測誤差は \{I=0\%, R=33\%\,C=47\%\} に基づきます
上記では、特に非常に小さなデータセットから学習する場合には、ランドスケープ分析 (niSNEAK など) をお勧めします。
このペーパーでは、健康をプロジェクトするための niSNEAK の応用についてのみ説明します。
とはいえ、原理的には、この手法をより広範囲の問題に適用することを妨げるものは何もありません。
他の研究者が私たちの結果を繰り返したり、改善したり、さらには反論したりするのを支援するために、すべてのスクリプトとデータは GitHub (https://github.com/zxcv123456qwe/niSneak) で入手できます。

要約(オリジナル)

When data is scarce, software analytics can make many mistakes. For example, consider learning predictors for open source project health (e.g. the number of closed pull requests in twelve months time). The training data for this task may be very small (e.g. five years of data, collected every month means just 60 rows of training data). The models generated from such tiny data sets can make many prediction errors. Those errors can be tamed by a {\em landscape analysis} that selects better learner control parameters. Our niSNEAK tool (a)~clusters the data to find the general landscape of the hyperparameters; then (b)~explores a few representatives from each part of that landscape. niSNEAK is both faster and more effective than prior state-of-the-art hyperparameter optimization algorithms (e.g. FLASH, HYPEROPT, OPTUNA). The configurations found by niSNEAK have far less error than other methods. For example, for project health indicators such as $C$= number of commits; $I$=number of closed issues, and $R$=number of closed pull requests, niSNEAK’s 12 month prediction errors are \{I=0\%, R=33\%\,C=47\%\} Based on the above, we recommend landscape analytics (e.g. niSNEAK) especially when learning from very small data sets. This paper only explores the application of niSNEAK to project health. That said, we see nothing in principle that prevents the application of this technique to a wider range of problems. To assist other researchers in repeating, improving, or even refuting our results, all our scripts and data are available on GitHub at https://github.com/zxcv123456qwe/niSneak

arxiv情報

著者 Andre Lustosa,Tim Menzies
発行日 2023-10-11 17:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク