FMLFS: A federated multi-label feature selection based on information theory in IoT environment

要約

健康監視ウェアラブル システムや交通監視システムなどの特定の新興アプリケーションでは、モノのインターネット (IoT) デバイスが大量のマルチラベル データセットを生成または収集します。
これらのデータセット内では、各インスタンスがラベルのセットにリンクされています。
これらのデータセット内にノイズの多い、冗長な、または無関係な特徴が存在することは、次元の呪いとともに、マルチラベル分類子にとって課題となります。
特徴選択 (FS) は、分類器のパフォーマンスを強化し、これらの課題に対処する上で効果的な戦略であることが証明されています。
しかし、現時点では、IoT 環境内の分散マルチラベル データセットに適した既存の分散マルチラベル FS 手法は文献に記載されていません。
このペーパーでは、最初のフェデレーテッド マルチラベル特徴選択方法である FMLFS を紹介します。
ここでは、フィーチャとラベル間の相互情報が関連性メトリックとして機能し、相互情報量と結合エントロピーから導出されたフィーチャ間の相関距離が冗長性メトリックとして利用されます。
これらのメトリクスをエッジ サーバー上で集約し、パレートベースの双目標戦略と混雑距離戦略を採用した後、並べ替えられた特徴が IoT デバイスに送り返されます。
提案された方法は、1) 集中分類器を使用するために縮小サイズのデータ​​セットをエッジ サーバーに送信する、および 2) 縮小サイズのデータ​​セットを使用したフェデレーテッド ラーニングを採用する 2 つのシナリオを通じて評価されます。
パフォーマンス、時間計算量、通信コストの 3 つの指標にわたる評価では、FMLFS が文献に記載されている他の 5 つの同等の方法よりも優れたパフォーマンスを示し、3 つの現実世界のデータセットに対して適切なトレードオフを提供することが示されています。

要約(オリジナル)

In certain emerging applications such as health monitoring wearable and traffic monitoring systems, Internet-of-Things (IoT) devices generate or collect a huge amount of multi-label datasets. Within these datasets, each instance is linked to a set of labels. The presence of noisy, redundant, or irrelevant features in these datasets, along with the curse of dimensionality, poses challenges for multi-label classifiers. Feature selection (FS) proves to be an effective strategy in enhancing classifier performance and addressing these challenges. Yet, there is currently no existing distributed multi-label FS method documented in the literature that is suitable for distributed multi-label datasets within IoT environments. This paper introduces FMLFS, the first federated multi-label feature selection method. Here, mutual information between features and labels serves as the relevancy metric, while the correlation distance between features, derived from mutual information and joint entropy, is utilized as the redundancy measure. Following aggregation of these metrics on the edge server and employing Pareto-based bi-objective and crowding distance strategies, the sorted features are subsequently sent back to the IoT devices. The proposed method is evaluated through two scenarios: 1) transmitting reduced-size datasets to the edge server for centralized classifier usage, and 2) employing federated learning with reduced-size datasets. Evaluation across three metrics – performance, time complexity, and communication cost – demonstrates that FMLFS outperforms five other comparable methods in the literature and provides a good trade-off on three real-world datasets.

arxiv情報

著者 Afsaneh Mahanipour,Hana Khamfroush
発行日 2024-05-01 13:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, cs.NI, math.IT パーマリンク