要約
表形式モデルの評価と予測の新しいデータセットである TabRepo を紹介します。
TabRepo には、200 の分類および回帰データセットで評価された 1,310 のモデルの予測とメトリクスが含まれています。
データセットの利点をさまざまな方法で説明します。
まず、事前計算されたモデル予測を使用することで、限界コストでのアンサンブルを考慮しながら、ハイパーパラメーターの最適化と現在の AutoML システムを比較するなどの分析を実行できることを示します。
次に、データセットを簡単に活用して転移学習を実行できることを示します。
特に、標準的な転移学習技術を適用すると、精度、実行時間、待ち時間の点で現在の最先端の表形式システムを上回るパフォーマンスが得られることを示します。
要約(オリジナル)
We introduce TabRepo, a new dataset of tabular model evaluations and predictions. TabRepo contains the predictions and metrics of 1310 models evaluated on 200 classification and regression datasets. We illustrate the benefit of our dataset in multiple ways. First, we show that it allows to perform analysis such as comparing Hyperparameter Optimization against current AutoML systems while also considering ensembling at marginal cost by using precomputed model predictions. Second, we show that our dataset can be readily leveraged to perform transfer-learning. In particular, we show that applying standard transfer-learning techniques allows to outperform current state-of-the-art tabular systems in accuracy, runtime and latency.
arxiv情報
著者 | David Salinas,Nick Erickson |
発行日 | 2024-03-19 13:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google