EDCA – An Evolutionary Data-Centric AutoML Framework for Efficient Pipelines

要約

自動化された機械学習(AUTOML)は、機械学習(ML)スペシャリストの需要の増加により人気を博し、MLテクニックを簡単かつ迅速に適用できるようになりました。
Automlの実装は、最適化方法を使用して、特定のデータセットの最も効果的なMLソリューションを特定し、1つ以上の事前定義されたメトリックを改善することを目指しています。
ただし、ほとんどの実装は、モデルの選択とハイパーパラメーターのチューニングに焦点を当てています。
高性能MLシステムを取得する上で重要な要素であるにもかかわらず、データの品質は通常、Automlの見過ごされがちな部分であり、マニュアルで時間のかかるタスクであり続けます。
この作業は、進化データ中心のAutomlフレームワークであるEDCAを提示します。
EDCAは、最適なモデルやハイパーパラメーターの選択などの従来のタスクに加えて、問題のニーズに応じてデータの削減やクリーニングなどのデータ処理タスクを最適化することにより、指定されたデータを強化します。
これらのすべてのステップは、進化的アルゴリズムによって最適化されたMLパイプラインを作成します。
その有効性を評価するために、EDCAは、Automlベンチマークの上部にある2つのフレームワークであるFLAMLおよびTPOTと比較されました。
フレームワークは、AMLB分類ベンチマークのデータセットを使用して同じ条件で評価されました。
EDCAは、FLAMLとTPOTに対するパフォーマンスで統計的に類似した結果を達成しましたが、最終的なソリューションをトレーニングするためには大幅に少ないデータを使用しました。
さらに、EDCAの実験結果は、Green Automlガイドラインに沿ったより少ないデータと効率的なMLアルゴリズムの側面を使用して、優れたパフォーマンスを実現できることを明らかにしています。

要約(オリジナル)

Automated Machine Learning (AutoML) gained popularity due to the increased demand for Machine Learning (ML) specialists, allowing them to apply ML techniques effortlessly and quickly. AutoML implementations use optimisation methods to identify the most effective ML solution for a given dataset, aiming to improve one or more predefined metrics. However, most implementations focus on model selection and hyperparameter tuning. Despite being an important factor in obtaining high-performance ML systems, data quality is usually an overlooked part of AutoML and continues to be a manual and time-consuming task. This work presents EDCA, an Evolutionary Data Centric AutoML framework. In addition to the traditional tasks such as selecting the best models and hyperparameters, EDCA enhances the given data by optimising data processing tasks such as data reduction and cleaning according to the problems’ needs. All these steps create an ML pipeline that is optimised by an evolutionary algorithm. To assess its effectiveness, EDCA was compared to FLAML and TPOT, two frameworks at the top of the AutoML benchmarks. The frameworks were evaluated in the same conditions using datasets from AMLB classification benchmarks. EDCA achieved statistically similar results in performance to FLAML and TPOT but used significantly less data to train the final solutions. Moreover, EDCA experimental results reveal that a good performance can be achieved using less data and efficient ML algorithm aspects that align with Green AutoML guidelines

arxiv情報

著者 Joana Simões,João Correia
発行日 2025-04-14 16:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク