TabSeq: A Framework for Deep Learning on Tabular Data via Sequential Ordering

要約

表形式データの効果的な分析は、深層学習において依然として重大な問題を引き起こしています。これは主に、表形式データセットの特徴が異種であることが多く、関連性のレベルが異なるためです。
この研究では、特徴を順番に並べるための新しいフレームワークである TabSeq を導入し、学習プロセスを最適化するという重要なニーズに対処します。
特徴は常に同じように情報を提供するとは限らず、特定の深層学習モデルでは、そのランダムな配置がモデルの学習能力を妨げる可能性があります。
このような特徴の最適なシーケンス順序を見つけることで、深層学習モデルの学習プロセスを改善できる可能性があります。
この研究で提供する新しい特徴順序付け手法はクラスタリングに基づいており、ローカル順序付けとグローバル順序付けの両方が組み込まれています。
これは、ノイズ除去オートエンコーダー ネットワークでマルチヘッド アテンション メカニズムとともに使用するように設計されています。
私たちのフレームワークはクラスタリングを使用して、同等の機能を調整し、データ構成を改善します。
マルチヘッド アテンションは本質的な特性に焦点を当てますが、ノイズ除去オートエンコーダーは歪んだ入力から再構築することで重要な側面を強調します。
この方法により、冗長性を低下させながら、表形式のデータから学習する機能が向上します。
私たちの研究では、生の抗体マイクロアレイと他の 2 つの実際の生物医学データセットを使用した適切な特徴配列の再配置によるパフォーマンスの向上を実証し、特徴の順序付けの影響を検証しています。
これらの結果は、特徴の順序付けが表形式データの深層学習を改善するための実行可能なアプローチとなり得ることを示しています。

要約(オリジナル)

Effective analysis of tabular data still poses a significant problem in deep learning, mainly because features in tabular datasets are often heterogeneous and have different levels of relevance. This work introduces TabSeq, a novel framework for the sequential ordering of features, addressing the vital necessity to optimize the learning process. Features are not always equally informative, and for certain deep learning models, their random arrangement can hinder the model’s learning capacity. Finding the optimum sequence order for such features could improve the deep learning models’ learning process. The novel feature ordering technique we provide in this work is based on clustering and incorporates both local ordering and global ordering. It is designed to be used with a multi-head attention mechanism in a denoising autoencoder network. Our framework uses clustering to align comparable features and improve data organization. Multi-head attention focuses on essential characteristics, whereas the denoising autoencoder highlights important aspects by rebuilding from distorted inputs. This method improves the capability to learn from tabular data while lowering redundancy. Our research, demonstrating improved performance through appropriate feature sequence rearrangement using raw antibody microarray and two other real-world biomedical datasets, validates the impact of feature ordering. These results demonstrate that feature ordering can be a viable approach to improved deep learning of tabular data.

arxiv情報

著者 Al Zadid Sultan Bin Habib,Kesheng Wang,Mary-Anne Hartley,Gianfranco Doretto,Donald A. Adjeroh
発行日 2024-10-21 15:21:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク