Q(D)O-ES: Population-based Quality (Diversity) Optimisation for Post Hoc Ensemble Selection in AutoML

要約

自動機械学習 (AutoML) システムは通常、貪欲アンサンブル選択 (GES) を介して、予測パフォーマンスを向上させるために事後的にアンサンブル モデルを構築します。
ただし、GES は単純な決定論的な貪欲検索を実行するため、必ずしも最適であるとは限らないと考えています。
この研究では、2 つの新しい集団ベースのアンサンブル選択方法、QO-ES および QDO-ES を導入し、それらを GES と比較します。
QO-ES は予測パフォーマンスのみを最適化しますが、QDO-ES は母集団内のアンサンブルの多様性も考慮し、品質多様性の最適化のアイデアに基づいて、最適化中に優れたパフォーマンスのアンサンブルの多様なセットを維持します。
この手法は AutoML ベンチマークの 71 の分類データセットを使用して評価され、検証データでのみ統計的に有意であるにもかかわらず、QO-ES と QDO-ES が GES を上回ることが多いことが実証されています。
我々の結果はさらに、多様性はポストホックアンサンブルにとって有益である可能性があるが、過剰適合のリスクも高めることを示唆しています。

要約(オリジナル)

Automated machine learning (AutoML) systems commonly ensemble models post hoc to improve predictive performance, typically via greedy ensemble selection (GES). However, we believe that GES may not always be optimal, as it performs a simple deterministic greedy search. In this work, we introduce two novel population-based ensemble selection methods, QO-ES and QDO-ES, and compare them to GES. While QO-ES optimises solely for predictive performance, QDO-ES also considers the diversity of ensembles within the population, maintaining a diverse set of well-performing ensembles during optimisation based on ideas of quality diversity optimisation. The methods are evaluated using 71 classification datasets from the AutoML benchmark, demonstrating that QO-ES and QDO-ES often outrank GES, albeit only statistically significant on validation data. Our results further suggest that diversity can be beneficial for post hoc ensembling but also increases the risk of overfitting.

arxiv情報

著者 Lennart Purucker,Lennart Schneider,Marie Anastacio,Joeran Beel,Bernd Bischl,Holger Hoos
発行日 2023-08-02 16:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, I.2.6 パーマリンク