Fast Genetic Algorithm for feature selection — A qualitative approximation approach

要約

進化的アルゴリズム (EA) は、一般的に高価な適応度関数の多数の評価を伴うため、現実世界の設定に適用するのが困難なことがよくあります。
たとえば、評価には新しい機械学習モデルのトレーニングが含まれる場合があります。
このようなアプリケーションでは、真の関数の近似 (メタモデルまたはサロゲートとも呼ばれる) を使用して、計算コストを軽減できます。
この論文では、大規模なデータセットのラッパー設定での特徴選択に遺伝的アルゴリズム (GA) を使用することで生じる計算上の問題に対処する、2 段階のサロゲート支援進化的アプローチを提案します。
近似が使用される場合に EA 計算の正確性を保証するために必要な条件を把握するために、「近似の有用性」を定義します。
この定義に基づいて、データ インスタンスのアクティブな選択によって軽量の定性メタモデルを構築する手順を提案します。
次に、メタモデルを使用して特徴選択タスクを実行します。
この手順を GA ベースのアルゴリズム CHC (世代間エリート選択、異種組換え、および大惨事変異) に適用して、定性的近似バリアント CHCQX を作成します。
特に 100,000 インスタンスを超える大規模なデータセットの場合、CHCQX は (CHC と比較して) 大幅に高い精度の特徴サブセット ソリューションに高速に収束することを示します。
また、粒子群最適化 (PSO) 手法の定性的近似適応である PSOQX の結果を使用して、進化的計算 (EC) パラダイムの別の分野である群インテリジェンス (SI) に対する、より広範なアプローチの背後にある考え方の適用可能性を実証します。
完全な実装を備えた GitHub リポジトリが利用可能です。

要約(オリジナル)

Evolutionary Algorithms (EAs) are often challenging to apply in real-world settings since evolutionary computations involve a large number of evaluations of a typically expensive fitness function. For example, an evaluation could involve training a new machine learning model. An approximation (also known as meta-model or a surrogate) of the true function can be used in such applications to alleviate the computation cost. In this paper, we propose a two-stage surrogate-assisted evolutionary approach to address the computational issues arising from using Genetic Algorithm (GA) for feature selection in a wrapper setting for large datasets. We define ‘Approximation Usefulness’ to capture the necessary conditions to ensure correctness of the EA computations when an approximation is used. Based on this definition, we propose a procedure to construct a lightweight qualitative meta-model by the active selection of data instances. We then use a meta-model to carry out the feature selection task. We apply this procedure to the GA-based algorithm CHC (Cross generational elitist selection, Heterogeneous recombination and Cataclysmic mutation) to create a Qualitative approXimations variant, CHCQX. We show that CHCQX converges faster to feature subset solutions of significantly higher accuracy (as compared to CHC), particularly for large datasets with over 100K instances. We also demonstrate the applicability of the thinking behind our approach more broadly to Swarm Intelligence (SI), another branch of the Evolutionary Computation (EC) paradigm with results of PSOQX, a qualitative approximation adaptation of the Particle Swarm Optimization (PSO) method. A GitHub repository with the complete implementation is available.

arxiv情報

著者 Mohammed Ghaith Altarabichi,Sławomir Nowaczyk,Sepideh Pashami,Peyman Sheikholharam Mashhadi
発行日 2024-04-05 10:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク