A Framework and Benchmark for Deep Batch Active Learning for Regression

要約

【タイトル】回帰のためのディープバッチアクティブラーニングのフレームワークとベンチマーク

【要約】
– 監督学習のラベル取得は高価である。
– ニューラルネットワーク回帰のサンプル効率を改善するため、適応的にラベルなしデータのバッチを選択するアクティブラーニング方法を研究する。
– ベースカーネル、カーネル変換、選択方法などから、そうした方法を構築するフレームワークを提供する。
– ガウス過程に基づく既存のベイジアン方法や非ベイジアン方法を包括する。
– また、典型的な最終層の特徴量を有限幅ニューラルタンジェントカーネルで置き換え、新しいクラスタリング方法と組み合わせることを提案する。
– 異なる方法を評価するため、15の大規模な表形式回帰データセットからなるオープンソースベンチマークを導入する。
– 提案された方法は、ベンチマークで最新技術を上回り、大規模なデータセットにスケーリングし、ネットワークアーキテクチャやトレーニングコードを調整することなく、開箱即食で動作する。
– すべてのカーネル、カーネル変換、選択方法の効率的な実装を含むオープンソースコードを提供し、結果を再現するために使用できるようにする。

要約(オリジナル)

The acquisition of labels for supervised learning can be expensive. In order to improve the sample-efficiency of neural network regression, we study active learning methods that adaptively select batches of unlabeled data for labeling. We present a framework for constructing such methods out of (network-dependent) base kernels, kernel transformations and selection methods. Our framework encompasses many existing Bayesian methods based on Gaussian Process approximations of neural networks as well as non-Bayesian methods. Additionally, we propose to replace the commonly used last-layer features with sketched finite-width Neural Tangent Kernels, and to combine them with a novel clustering method. To evaluate different methods, we introduce an open-source benchmark consisting of 15 large tabular regression data sets. Our proposed method outperforms the state-of-the-art on our benchmark, scales to large data sets, and works out-of-the-box without adjusting the network architecture or training code. We provide open-source code that includes efficient implementations of all kernels, kernel transformations, and selection methods, and can be used for reproducing our results.

arxiv情報

著者 David Holzmüller,Viktor Zaverkin,Johannes Kästner,Ingo Steinwart
発行日 2023-04-04 15:15:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.NE, stat.ML パーマリンク