要約
表形式の分類は従来、トレーニング データを使用して予測モデルのパラメーターを推定する教師ありアルゴリズムに依存していました。
最近、TabPFN などの事前データ適合ネットワーク (PFN) は、表形式データをコンテキスト内で分類する方法を学習することに成功しました。モデル パラメーターは、モデル トレーニング後に与えられたラベル付きトレーニング サンプルに基づいて新しいサンプルを分類するように設計されています。
このようなモデルは大きな可能性を示していますが、必要な計算規模のせいで、現実世界のデータへの適用性は依然として限られています。
ここでは、次の質問について検討します。表形式データの事前トレーニング済み PFN が与えられた場合、モデルにフィードする前にラベル付きトレーニング サンプルを要約する最良の方法は何ですか?
私たちは、TabPFN のスケッチと特徴選択方法の初期調査を実施し、TabPFN と従来のフィッティング表形式モデルとの重要な違いに注目しました。
要約(オリジナル)
Tabular classification has traditionally relied on supervised algorithms, which estimate the parameters of a prediction model using its training data. Recently, Prior-Data Fitted Networks (PFNs) such as TabPFN have successfully learned to classify tabular data in-context: the model parameters are designed to classify new samples based on labelled training samples given after the model training. While such models show great promise, their applicability to real-world data remains limited due to the computational scale needed. Here we study the following question: given a pre-trained PFN for tabular data, what is the best way to summarize the labelled training samples before feeding them to the model? We conduct an initial investigation of sketching and feature-selection methods for TabPFN, and note certain key differences between it and conventionally fitted tabular models.
arxiv情報
著者 | Benjamin Feuer,Chinmay Hegde,Niv Cohen |
発行日 | 2023-11-17 16:04:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google