Tabular Learning: Encoding for Entity and Context Embeddings

要約

エンティティとコンテキストの埋め込みに対するさまざまなエンコード技術の影響を調べるこの研究の目標は、表形式の学習で一般的に使用される Ordinal エンコードに挑戦することです。
さまざまな前処理方法とネットワーク アーキテクチャをいくつかのデータセットに適用することで、エンコーダーがネットワークの学習結果にどのような影響を与えるかについてのベンチマークが得られました。
テスト、検証、トレーニング データの一貫性を保つことで、データの前処理とその後のターゲット変数の正確な分類の点で、順序エンコードがカテゴリ データに最も適したエンコーダではないことが結果からわかりました。
ネットワークへの入力として類似度行列を計算することで、文字列の類似性に基づいて特徴をエンコードすることで、より良い結果が得られました。
これは、エンティティ埋め込みとコンテキスト埋め込みの両方に当てはまり、トランスフォーマー アーキテクチャでは、マルチラベル分類タスクに関する序数および類似度エンコードのパフォーマンスが向上しました。

要約(オリジナル)

Examining the effect of different encoding techniques on entity and context embeddings, the goal of this work is to challenge commonly used Ordinal encoding for tabular learning. Applying different preprocessing methods and network architectures over several datasets resulted in a benchmark on how the encoders influence the learning outcome of the networks. By keeping the test, validation and training data consistent, results have shown that ordinal encoding is not the most suited encoder for categorical data in terms of preprocessing the data and thereafter, classifying the target variable correctly. A better outcome was achieved, encoding the features based on string similarities by computing a similarity matrix as input for the network. This is the case for both, entity and context embeddings, where the transformer architecture showed improved performance for Ordinal and Similarity encoding with regard to multi-label classification tasks.

arxiv情報

著者 Fredy Reusser
発行日 2024-03-28 13:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG パーマリンク