A benchmark of categorical encoders for binary classification

要約

カテゴリエンコーダは、カテゴリ特徴を、幅広い機械学習モデルに不可欠な数値表現に変換します。
既存のエンコーダ ベンチマーク調査は、(1) エンコーダ、(2) 実験要素、および (3) データセットの選択肢が限られているため、一般化性に欠けています。
さらに、さまざまな集計戦略を採用すると、不整合が発生します。
この論文は、これまでで最も包括的なカテゴリカル エンコーダーのベンチマークであり、さまざまなファミリーのエンコーダーの 32 の構成、実験因子の 36 の組み合わせ、および 50 のデータセットに関する広範な評価が含まれています。
この研究では、データセットの選択、実験要素、集計戦略がベンチマークの結論に大きな影響を与えていることが示されており、これらの側面は以前のエンコーダ ベンチマークでは無視されていました。

要約(オリジナル)

Categorical encoders transform categorical features into numerical representations that are indispensable for a wide range of machine learning models. Existing encoder benchmark studies lack generalizability because of their limited choice of (1) encoders, (2) experimental factors, and (3) datasets. Additionally, inconsistencies arise from the adoption of varying aggregation strategies. This paper is the most comprehensive benchmark of categorical encoders to date, including an extensive evaluation of 32 configurations of encoders from diverse families, with 36 combinations of experimental factors, and on 50 datasets. The study shows the profound influence of dataset selection, experimental factors, and aggregation strategies on the benchmark’s conclusions — aspects disregarded in previous encoder benchmarks.

arxiv情報

著者 Federico Matteucci,Vadim Arzamasov,Klemens Boehm
発行日 2023-07-19 16:24:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク