A data-science pipeline to enable the Interpretability of Many-Objective Feature Selection

要約

多目的特徴選択 (MOFS) アプローチでは、4 つ以上の目的を使用して、教師あり学習タスクにおける特徴のサブセットの関連性を判断します。
結果として、MOFS は通常、非支配的なソリューションの大規模なセットを返します。最終的な選択に進むには、データ サイエンティストがそれらを評価する必要があります。
予測精度に関係のない基準(公平性など)が含まれる可能性がある評価の多変量の性質を考慮すると、このステップは多くの場合簡単ではなく、既存のツールの不足に悩まされます。
たとえば、ソリューションの表形式のプレゼンテーションを利用するのが一般的ですが、これでは、一連のソリューションにわたるトレードオフや基準間の関係についてほとんど情報が得られません。
このペーパーでは、一連のソリューションの後処理と視覚化を組み合わせることにより、データ サイエンティストが MOFS 結果の解釈と比較をサポートするための独自の方法論を提案します。
この方法論は、目的、ソリューション、個別の機能という 3 つの異なるレベルで高レベルの情報をデータ サイエンティストに提供することにより、データ サイエンティストが最適な機能サブセットを選択できるようにサポートします。
この方法論は、6 つの目的 (選択された特徴の数、バランスの取れた精度、F1 スコア、分散膨張係数、統計的パリティ、均等化されたオッズ) を持つ GA ベースの MOFS を採用した 2 つの特徴選択タスクで実験的に評価されます。
結果は、特徴の最終サブセットの選択における方法論の付加価値を示しています。

要約(オリジナル)

Many-Objective Feature Selection (MOFS) approaches use four or more objectives to determine the relevance of a subset of features in a supervised learning task. As a consequence, MOFS typically returns a large set of non-dominated solutions, which have to be assessed by the data scientist in order to proceed with the final choice. Given the multi-variate nature of the assessment, which may include criteria (e.g. fairness) not related to predictive accuracy, this step is often not straightforward and suffers from the lack of existing tools. For instance, it is common to make use of a tabular presentation of the solutions, which provide little information about the trade-offs and the relations between criteria over the set of solutions. This paper proposes an original methodology to support data scientists in the interpretation and comparison of the MOFS outcome by combining post-processing and visualisation of the set of solutions. The methodology supports the data scientist in the selection of an optimal feature subset by providing her with high-level information at three different levels: objectives, solutions, and individual features. The methodology is experimentally assessed on two feature selection tasks adopting a GA-based MOFS with six objectives (number of selected features, balanced accuracy, F1-Score, variance inflation factor, statistical parity, and equalised odds). The results show the added value of the methodology in the selection of the final subset of features.

arxiv情報

著者 Uchechukwu F. Njoku,Alberto Abelló,Besim Bilalli,Gianluca Bontempi
発行日 2023-11-30 17:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク