Polar Encoding: A Simple Baseline Approach for Classification with Missing Values


私たちは、分類コンテキストで使用される、欠損値を持つカテゴリカルおよび数値の $[0,1]$ 値属性の表現である極エンコーディングを提案します。
これはあらゆる分類アルゴリズムで使用でき、欠損情報が保存され、適用が非常に簡単で、優れたパフォーマンスを提供するため、これが優れたベースライン アプローチであると私たちは主張します。
さらに、カテゴリカル属性と $[0,1]$ 値属性は、古典的な重心座標の概念に対応する、単一の属性タイプの特殊なケースと見なすことができ、これにより、極エンコーディングの自然な解釈が提供されることを示します。
ワンホット エンコーディングのファジー化形式。
欠損値を含む 20 個の実際のデータセットに基づく実験により、結果の分類パフォーマンスの点で、極符号化が最先端の戦略 \e{連鎖方程式による多重代入} (
MICE) と \e{ノイズ除去オートエンコーダーによる多重代入} (MIDAS) および — 分類器に応じて — 欠損指標による平均値/モード代入とほぼ同等かそれ以上です。


We propose polar encoding, a representation of categorical and numerical $[0,1]$-valued attributes with missing values to be used in a classification context. We argue that this is a good baseline approach, because it can be used with any classification algorithm, preserves missingness information, is very simple to apply and offers good performance. In particular, unlike the existing missing-indicator approach, it does not require imputation, ensures that missing values are equidistant from non-missing values, and lets decision tree algorithms choose how to split missing values, thereby providing a practical realisation of the ‘missingness incorporated in attributes’ (MIA) proposal. Furthermore, we show that categorical and $[0,1]$-valued attributes can be viewed as special cases of a single attribute type, corresponding to the classical concept of barycentric coordinates, and that this offers a natural interpretation of polar encoding as a fuzzified form of one-hot encoding. With an experiment based on twenty real-life datasets with missing values, we show that, in terms of the resulting classification performance, polar encoding performs better than the state-of-the-art strategies \e{multiple imputation by chained equations} (MICE) and \e{multiple imputation with denoising autoencoders} (MIDAS) and — depending on the classifier — about as well or better than mean/mode imputation with missing-indicators.


著者 Oliver Urs Lenz,Daniel Peralta,Chris Cornelis
発行日 2023-12-19 14:39:40+00:00
arxivサイト arxiv_id(pdf)

