A Scalable Algorithm for Active Learning

要約

FIRAL は、ロジスティック回帰を使用したマルチクラス分類のための最近提案された決定論的アクティブ ラーニング アルゴリズムです。
精度と堅牢性の点で最先端の製品を上回ることが証明されており、理論上のパフォーマンスが保証されています。
ただし、$\mathcal{O}(c^2d^2+nc^2d) であるため、多数の点 $n$、次元 $d$、クラス $c$ を特徴とするデータセットを扱う場合、スケーラビリティが低下します。
$ storage と $\mathcal{O}(c^3(nd^2 + bd^3 + bn))$ 計算量 ここで、$b$ はアクティブ ラーニングで選択する点の数です。
これらの課題に対処するために、ストレージ要件が $\mathcal{O}(n(d+c) + cd^2)$ に削減され、計算量が $\mathcal{O}(bncd^2) になる近似アルゴリズムを提案します。
$。
さらに、GPU での並列実装についても説明します。
MNIST、CIFAR-10、Caltech101、および ImageNet を使用して、アプローチの精度とスケーラビリティを実証します。
精度テストでは、FIRAL と比較して精度の低下はありません。
300 万ポイントの合成データセットに対して、最大 12 個の GPU での強いスケーリング テストと弱いスケーリング テストを報告します。

要約(オリジナル)

FIRAL is a recently proposed deterministic active learning algorithm for multiclass classification using logistic regression. It was shown to outperform the state-of-the-art in terms of accuracy and robustness and comes with theoretical performance guarantees. However, its scalability suffers when dealing with datasets featuring a large number of points $n$, dimensions $d$, and classes $c$, due to its $\mathcal{O}(c^2d^2+nc^2d)$ storage and $\mathcal{O}(c^3(nd^2 + bd^3 + bn))$ computational complexity where $b$ is the number of points to select in active learning. To address these challenges, we propose an approximate algorithm with storage requirements reduced to $\mathcal{O}(n(d+c) + cd^2)$ and a computational complexity of $\mathcal{O}(bncd^2)$. Additionally, we present a parallel implementation on GPUs. We demonstrate the accuracy and scalability of our approach using MNIST, CIFAR-10, Caltech101, and ImageNet. The accuracy tests reveal no deterioration in accuracy compared to FIRAL. We report strong and weak scaling tests on up to 12 GPUs, for three million point synthetic dataset.

arxiv情報

著者 Youguang Chen,Zheyu Wen,George Biros
発行日 2024-09-11 16:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク