Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting

要約

不確実性の推定は、機械学習モデルが分布外 (OOD) 入力を検出するために重要です。
ただし、従来の識別深層学習分類器は、OOD データに対して未校正の閉集合予測を生成します。
不確実性推定を備えたより堅牢な分類器には、通常、外れ値暴露トレーニング用に潜在的に利用できない OOD データセット、またはアンサンブル モデルを構築するためにかなりの量の追加メモリとコンピューティングが必要です。
この研究では、代替の分割アンサンブル法を使用して、追加の OOD データや追加の推論コストを使用せずに不確実性の推定を改善します。
具体的には、共通のマルチクラス分類タスクがいくつかの相補的なサブタスクに分割される、新しいサブタスク分割アンサンブル トレーニング目標を提案します。
次に、各サブタスクのトレーニング データは、他のサブタスクに対する OOD と見なすことができます。
したがって、OOD を意識した目標を備えた各サブタスクで多様なサブモデルをトレーニングできます。
サブタスク分割の目的により、サブモデル間で低レベルの機能を共有して、パラメーターと計算のオーバーヘッドを回避できます。
特に、共有バックボーン モデルから反復的な分割と枝刈りを実行することにより、ツリー状の分割アンサンブル アーキテクチャを構築します。各ブランチは、サブタスクに対応するサブモデルとして機能します。
これにより、固定アンサンブル計算予算の下でサブモデル全体の精度と不確実性の推定が向上します。
ResNet-18 バックボーンを使用した実証研究では、Split-Ensemble は、追加の計算コストなしで、CIFAR-10、CIFAR-100、Tiny-ImageNet で単一モデルよりもそれぞれ 0.8%、1.8%、25.5% 精度が向上することが示されています。
同じバックボーンおよび分布内データセットの OOD 検出は、単一モデルのベースラインを、対応して平均 AUROC で 2.2%、8.1%、および 29.6% 上回っています。
コードは https://antonioo-c.github.io/projects/split-ensemble で公開されます。

要約(オリジナル)

Uncertainty estimation is crucial for machine learning models to detect out-of-distribution (OOD) inputs. However, the conventional discriminative deep learning classifiers produce uncalibrated closed-set predictions for OOD data. A more robust classifiers with the uncertainty estimation typically require a potentially unavailable OOD dataset for outlier exposure training, or a considerable amount of additional memory and compute to build ensemble models. In this work, we improve on uncertainty estimation without extra OOD data or additional inference costs using an alternative Split-Ensemble method. Specifically, we propose a novel subtask-splitting ensemble training objective, where a common multiclass classification task is split into several complementary subtasks. Then, each subtask’s training data can be considered as OOD to the other subtasks. Diverse submodels can therefore be trained on each subtask with OOD-aware objectives. The subtask-splitting objective enables us to share low-level features across submodels to avoid parameter and computational overheads. In particular, we build a tree-like Split-Ensemble architecture by performing iterative splitting and pruning from a shared backbone model, where each branch serves as a submodel corresponding to a subtask. This leads to improved accuracy and uncertainty estimation across submodels under a fixed ensemble computation budget. Empirical study with ResNet-18 backbone shows Split-Ensemble, without additional computation cost, improves accuracy over a single model by 0.8%, 1.8%, and 25.5% on CIFAR-10, CIFAR-100, and Tiny-ImageNet, respectively. OOD detection for the same backbone and in-distribution datasets surpasses a single model baseline by, correspondingly, 2.2%, 8.1%, and 29.6% mean AUROC. Codes will be publicly available at https://antonioo-c.github.io/projects/split-ensemble

arxiv情報

著者 Anthony Chen,Huanrui Yang,Yulu Gan,Denis A Gudovskiy,Zhen Dong,Haofan Wang,Tomoyuki Okuno,Yohei Nakata,Shanghang Zhang,Kurt Keutzer
発行日 2023-12-14 17:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク