Logit-Based Ensemble Distribution Distillation for Robust Autoregressive Sequence Uncertainties

要約

不確実性を効率的かつ確実に推定することは、深層学習の重要な目的です。
これは、トレーニングと推論のコストが通常非常に高い自己回帰シーケンス タスクに特に関係します。
ただし、既存の研究は主に、画像分類などの静的データを使用するタスクに焦点を当ててきました。
この研究では、大規模な自然言語シーケンス間データに適用されるアンサンブル分布蒸留 (EDD) を調査します。
EDD は、高価な (教師) アンサンブルの優れた不確実性パフォーマンスを、安価な (生徒) 単一モデルに圧縮することを目的としています。
重要なのは、知識 (認識論的) とデータ (偶然的) の不確実性を分離する能力が維持されていることです。
しかし、EDD に対する既存の確率空間アプローチは、大規模な語彙に拡張することが困難です。
私たちは、大規模な翻訳タスクにおける最新の変換アーキテクチャについて、ソフトマックス確率ではなくアンサンブル ロジットをモデル化することで、学習者の成績が大幅に向上することを示します。
さらに、驚くべきことに、スチューデントは、ディストリビューション内での翻訳ではそれらと一致しながら、ディストリビューション外の検出では Deep Ensembles よりも最大 10% AUROC のパフォーマンスを上回っています。

要約(オリジナル)

Efficiently and reliably estimating uncertainty is an important objective in deep learning. It is especially pertinent to autoregressive sequence tasks, where training and inference costs are typically very high. However, existing research has predominantly focused on tasks with static data such as image classification. In this work, we investigate Ensemble Distribution Distillation (EDD) applied to large-scale natural language sequence-to-sequence data. EDD aims to compress the superior uncertainty performance of an expensive (teacher) ensemble into a cheaper (student) single model. Importantly, the ability to separate knowledge (epistemic) and data (aleatoric) uncertainty is retained. Existing probability-space approaches to EDD, however, are difficult to scale to large vocabularies. We show, for modern transformer architectures on large-scale translation tasks, that modelling the ensemble logits, instead of softmax probabilities, leads to significantly better students. Moreover, the students surprisingly even outperform Deep Ensembles by up to ~10% AUROC on out-of-distribution detection, whilst matching them at in-distribution translation.

arxiv情報

著者 Yassir Fathullah,Guoxuan Xia,Mark Gales
発行日 2023-05-17 17:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク