Diversified Ensemble of Independent Sub-Networks for Robust Self-Supervised Representation Learning

要約

ニューラルネットワークのアンサンブルは、深い教師あり学習において、モデルの性能を高め、不確実性を推定し、ロバスト性を向上させるアプローチとして広く認知されている。しかし、ディープアンサンブルには高い計算コストとメモリ需要が伴うことが多い。さらに、ディープアンサンブルの効率はアンサンブルメンバー間の多様性に関係するが、これは大規模でパラメータ化されすぎたディープニューラルネットワークにとっては困難である。さらに、アンサンブル学習は、まだそれほど広く採用されておらず、自己教師ありまたは教師なし表現学習にとって挑戦的な試みである。これらの課題を動機として、我々は、多様性を奨励するように設計された新しい損失関数によって補完された、独立したサブネットワークのアンサンブルを活用する、新しい自己教師付き学習レジームを提示する。本手法は、高い多様性を持つサブモデルアンサンブルを効率的に構築し、モデルの不確実性をよく較正された推定値に導く。本アプローチの有効性を評価するため、分布内汎化、分布外検出、データセット破損、半教師付き設定など、様々なタスクにわたって広範な実験を行った。その結果、我々の手法が予測の信頼性を大幅に向上させることが実証された。我々のアプローチは、優れた精度を達成するだけでなく、キャリブレーションを強化し、コンピュータビジョン、自然言語処理、ゲノムデータにおける広範囲の自己教師ありアーキテクチャにおいて、ベースライン性能を上回る。

要約(オリジナル)

Ensembling a neural network is a widely recognized approach to enhance model performance, estimate uncertainty, and improve robustness in deep supervised learning. However, deep ensembles often come with high computational costs and memory demands. In addition, the efficiency of a deep ensemble is related to diversity among the ensemble members which is challenging for large, over-parameterized deep neural networks. Moreover, ensemble learning has not yet seen such widespread adoption, and it remains a challenging endeavor for self-supervised or unsupervised representation learning. Motivated by these challenges, we present a novel self-supervised training regime that leverages an ensemble of independent sub-networks, complemented by a new loss function designed to encourage diversity. Our method efficiently builds a sub-model ensemble with high diversity, leading to well-calibrated estimates of model uncertainty, all achieved with minimal computational overhead compared to traditional deep self-supervised ensembles. To evaluate the effectiveness of our approach, we conducted extensive experiments across various tasks, including in-distribution generalization, out-of-distribution detection, dataset corruption, and semi-supervised settings. The results demonstrate that our method significantly improves prediction reliability. Our approach not only achieves excellent accuracy but also enhances calibration, surpassing baseline performance across a wide range of self-supervised architectures in computer vision, natural language processing, and genomics data.

arxiv情報

著者 Amirhossein Vahidi,Lisa Wimmer,Hüseyin Anil Gündüz,Bernd Bischl,Eyke Hüllermeier,Mina Rezaei
発行日 2023-09-01 11:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク