TabMDA: Tabular Manifold Data Augmentation for Any Classifier using Transformers with In-context Subsetting

要約

表形式のデータは多くの重要な領域で普及していますが、大量に取得するのは困難なことがよくあります。
この欠乏により、通常、そのようなデータに対する機械学習モデルのパフォーマンスが低下します。
視覚および言語タスクのパフォーマンスを向上させるための一般的な戦略であるデータ拡張は、入力空間に明示的な対称性がないため、通常、表形式のデータではパフォーマンスが低下します。
この課題を克服するために、表形式データで多様体データを拡張する新しい方法である TabMDA を紹介します。
この方法では、TabPFN などの事前トレーニング済みのコンテキスト内モデルを利用して、データを埋め込み空間にマッピングします。
TabMDA は、さまざまなコンテキストでデータを複数回エンコードすることにより、ラベル不変の変換を実行します。
このプロセスでは、基礎となるインコンテキスト モデルの学習された埋め込み空間を探索し、それによってトレーニング データセットを拡大します。
TabMDA はトレーニング不要のメソッドであるため、あらゆる分類器に適用できます。
私たちは 5 つの標準分類器で TabMDA を評価し、さまざまな表形式のデータセットにわたって大幅なパフォーマンスの向上を観察しました。
私たちの結果は、TabMDA が、事前トレーニングされたコンテキスト内モデルからの情報を活用して、下流の分類器のパフォーマンスを向上させる効果的な方法を提供することを示しています。
コードは https://github.com/AdrianBZG/TabMDA で入手できます。

要約(オリジナル)

Tabular data is prevalent in many critical domains, yet it is often challenging to acquire in large quantities. This scarcity usually results in poor performance of machine learning models on such data. Data augmentation, a common strategy for performance improvement in vision and language tasks, typically underperforms for tabular data due to the lack of explicit symmetries in the input space. To overcome this challenge, we introduce TabMDA, a novel method for manifold data augmentation on tabular data. This method utilises a pre-trained in-context model, such as TabPFN, to map the data into an embedding space. TabMDA performs label-invariant transformations by encoding the data multiple times with varied contexts. This process explores the learned embedding space of the underlying in-context models, thereby enlarging the training dataset. TabMDA is a training-free method, making it applicable to any classifier. We evaluate TabMDA on five standard classifiers and observe significant performance improvements across various tabular datasets. Our results demonstrate that TabMDA provides an effective way to leverage information from pre-trained in-context models to enhance the performance of downstream classifiers. Code is available at https://github.com/AdrianBZG/TabMDA.

arxiv情報

著者 Andrei Margeloiu,Adrián Bazaga,Nikola Simidjievski,Pietro Liò,Mateja Jamnik
発行日 2024-07-29 15:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク