要約
ディープ アンサンブルは、ディープ ラーニング アプローチの予測パフォーマンスと不確実性推定の両方を向上させる、シンプルで信頼性の高い効果的な方法です。
ただし、複数の独立したモデルを展開する必要があるため、計算コストが高いとして広く批判されています。
最近の研究では、この見解に疑問を投げかけており、予測精度に関しては、アーキテクチャ ファミリ内の単一モデルをスケーリングするよりもアンサンブルの方が (推論時) 計算効率が高いことが示されています。
これは、早期終了アプローチによってアンサンブル メンバーをカスケード接続することによって実現されます。
この研究では、これらの効率向上を不確実性の推定に関連するタスクに拡張することを調査します。
そのようなタスクの数だけ、たとえば
選択的分類はバイナリ分類であるため、私たちの重要な新しい洞察は、バイナリ決定境界に近いウィンドウ内のサンプルのみを後のカスケード ステージに渡すことです。
多数のネットワーク アーキテクチャと不確実性タスクにわたる ImageNet スケールのデータに関する実験では、提案されたウィンドウ ベースの早期終了アプローチが、単一モデルのスケーリングと比較して優れた不確実性と計算のトレードオフを達成できることが示されています。
たとえば、カスケード接続された EfficientNet-B2 アンサンブルは、MAC 数が 30% 未満の単一の EfficientNet-B4 と同様のカバレッジを 5% のリスクで達成できます。
また、カスケード/アンサンブルは、モデルをスケールアップするよりも OOD データをより確実に改善できることもわかりました。
この作業のコードは、https://github.com/Guoxoug/window-early-exit で入手できます。
要約(オリジナル)
Deep Ensembles are a simple, reliable, and effective method of improving both the predictive performance and uncertainty estimates of deep learning approaches. However, they are widely criticised as being computationally expensive, due to the need to deploy multiple independent models. Recent work has challenged this view, showing that for predictive accuracy, ensembles can be more computationally efficient (at inference) than scaling single models within an architecture family. This is achieved by cascading ensemble members via an early-exit approach. In this work, we investigate extending these efficiency gains to tasks related to uncertainty estimation. As many such tasks, e.g. selective classification, are binary classification, our key novel insight is to only pass samples within a window close to the binary decision boundary to later cascade stages. Experiments on ImageNet-scale data across a number of network architectures and uncertainty tasks show that the proposed window-based early-exit approach is able to achieve a superior uncertainty-computation trade-off compared to scaling single models. For example, a cascaded EfficientNet-B2 ensemble is able to achieve similar coverage at 5% risk as a single EfficientNet-B4 with <30% the number of MACs. We also find that cascades/ensembles give more reliable improvements on OOD data vs scaling models up. Code for this work is available at: https://github.com/Guoxoug/window-early-exit.
arxiv情報
著者 | Guoxuan Xia,Christos-Savvas Bouganis |
発行日 | 2023-10-09 13:56:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google