要約
メタ学習用に異種の表形式データセットを効果的に表現することは、未解決の問題のままです。
以前のアプローチは、統計的測定やランドマークなどの事前定義されたメタ特徴に依存していました。
Dataset2Vec などのエンコーダーベースのモデルを使用すると、人間の介入なしに重要なメタ特徴を自動的に抽出できます。
この研究では、GitHub https://github.com/azoz01/liltab で入手可能な liltab パッケージ内に実装された表形式データセットの新しいエンコーダーベースの表現を導入します。
私たちのパッケージは、[岩田と熊谷、2020] で提案された異種表形式データの確立されたモデルに基づいています。
提案されたアプローチは、特徴の関係をエンコードするために異なるモデルを採用し、Dataset2Vec などの既存の方法と比較して代替表現を生成します。
どちらも、データセットの類似性学習の基本的な仮定を活用しています。
この作業では、データセット全体とハイパーパラメーター最適化のウォーム スタートを表す 2 つの一般的なメタタスクで Dataset2Vec と liltab を評価します。
ただし、独立したメタMIMICデータセットの検証では、表現学習における微妙な課題が浮き彫りになります。
抽出中に要件が明示的に考慮されない一部のメタタスクでは、一般的な表現では十分ではない可能性があることを示します。
【岩田・熊谷、2020】岩田智治と熊谷厚敏。
異質な属性空間を持つタスクからのメタ学習。
神経情報処理システムの進歩、2020 年。
要約(オリジナル)
Effectively representing heterogeneous tabular datasets for meta-learning remains an open problem. Previous approaches rely on predefined meta-features, for example, statistical measures or landmarkers. Encoder-based models, such as Dataset2Vec, allow us to extract significant meta-features automatically without human intervention. This research introduces a novel encoder-based representation of tabular datasets implemented within the liltab package available on GitHub https://github.com/azoz01/liltab. Our package is based on an established model for heterogeneous tabular data proposed in [Iwata and Kumagai, 2020]. The proposed approach employs a different model for encoding feature relationships, generating alternative representations compared to existing methods like Dataset2Vec. Both of them leverage the fundamental assumption of dataset similarity learning. In this work, we evaluate Dataset2Vec and liltab on two common meta-tasks – representing entire datasets and hyperparameter optimization warm-start. However, validation on an independent metaMIMIC dataset highlights the nuanced challenges in representation learning. We show that general representations may not suffice for some meta-tasks where requirements are not explicitly considered during extraction. [Iwata and Kumagai, 2020] Tomoharu Iwata and Atsutoshi Kumagai. Meta-learning from Tasks with Heterogeneous Attribute Spaces. In Advances in Neural Information Processing Systems, 2020.
arxiv情報
著者 | Dawid Płudowski,Antoni Zajko,Anna Kozak,Katarzyna Woźnica |
発行日 | 2024-03-07 18:16:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google