Black-Box Batch Active Learning for Regression

要約

バッチ アクティブ ラーニングは、データ ポイントのバッチのラベル​​を繰り返し取得することで、最初はラベルのない大規模なデータセットで機械学習モデルを効率的にトレーニングするための一般的なアプローチです。
ただし、最近のバッチ アクティブ ラーニング手法の多くはホワイト ボックス アプローチであり、多くの場合、微分可能なパラメトリック モデルに限定されます。つまり、モデルの埋め込みまたは 1 次および 2 次導関数に基づく取得関数を使用して、ラベルのない点をスコアリングします。
この論文では、ホワイトボックスアプローチの拡張として、回帰タスクのためのブラックボックスバッチアクティブラーニングを提案します。
重要なことは、私たちの方法はモデルの予測のみに依存しているということです。
このアプローチは、通常の深層学習モデルやベイジアン深層学習モデル、ランダム フォレストなどの非微分可能モデルなど、幅広い機械学習モデルと互換性があります。
これはベイジアン原則に根ざしており、最近のカーネルベースのアプローチを利用しています。
これにより、既存の最先端のホワイトボックス バッチ アクティブ ラーニング手法 (BADGE、BAIT、LCMD) を幅広くブラックボックス モデルに拡張することができます。
私たちは、回帰データセットに対する広範な実験評価を通じてアプローチの有効性を実証し、深層学習モデルのホワイトボックスアプローチと比較して驚くほど強力なパフォーマンスを達成しました。

要約(オリジナル)

Batch active learning is a popular approach for efficiently training machine learning models on large, initially unlabelled datasets by repeatedly acquiring labels for batches of data points. However, many recent batch active learning methods are white-box approaches and are often limited to differentiable parametric models: they score unlabeled points using acquisition functions based on model embeddings or first- and second-order derivatives. In this paper, we propose black-box batch active learning for regression tasks as an extension of white-box approaches. Crucially, our method only relies on model predictions. This approach is compatible with a wide range of machine learning models, including regular and Bayesian deep learning models and non-differentiable models such as random forests. It is rooted in Bayesian principles and utilizes recent kernel-based approaches. This allows us to extend a wide range of existing state-of-the-art white-box batch active learning methods (BADGE, BAIT, LCMD) to black-box models. We demonstrate the effectiveness of our approach through extensive experimental evaluations on regression datasets, achieving surprisingly strong performance compared to white-box approaches for deep learning models.

arxiv情報

著者 Andreas Kirsch
発行日 2023-07-07 10:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク