要約
宇宙素粒子物理学における事象特性のニューラルネットワークに基づく予測は、ますます一般的になってきている。しかし、多くの場合、その結果は点予測として利用されるだけである。統計的不確実性やカバレッジ(1)、系統的不確実性(2)、適合度(3)は計算されないことが多い。ここでは、これらすべての特性を1つのネットワークモデルに組み込むことを可能にする、学習とネットワークアーキテクチャのある選択について述べる。我々は、データとラベルの結合分布のKL-発散目的によって、教師あり学習と変分オートエンコーダ(VAE)を確率的変分推論という一つの傘の下に統合できることを示す。この統合は、ニューラルネットワークモデルの適合度p値を計算することを可能にする、拡張教師あり学習スキームを動機づける。ニューラルネットワークで償却される条件付き正規化フローは、この構成において極めて重要である。例えば$mathbb{R}^n ⊖times ⊖mathcal{S}^m$のような積空間上で合同に定義される後置のカバレッジを厳密に定義する方法について議論する。最後に、系統的不確実性は変分視点に当然含まれる。提案する償却正規化フローを用いた拡張教師あり学習は、(1)被覆率計算、(2)系統性、(3)適合度測定を一つの機械学習モデルに組み込む。これらの性質が成立するためには、関係する分布の形状(例えばガウス性)に制約はなく、実際、$mathbb{R}^n ⊖times ⊖mathcal{S}^m$のような積空間上で定義される複雑な多峰性分布でも機能する。我々は、このイベント毎の情報をイベント選択や、不確定性保証を必要とする高速な天文警報に利用する大きな可能性を見ている。
要約(オリジナル)
Neural-network based predictions of event properties in astro-particle physics are getting more and more common. However, in many cases the result is just utilized as a point prediction. Statistical uncertainties and coverage (1), systematic uncertainties (2) or a goodness-of-fit measure (3) are often not calculated. Here we describe a certain choice of training and network architecture that allows to incorporate all these properties into a single network model. We show that a KL-divergence objective of the joint distribution of data and labels allows to unify supervised learning and variational autoencoders (VAEs) under one umbrella of stochastic variational inference. The unification motivates an extended supervised learning scheme which allows to calculate a goodness-of-fit p-value for the neural network model. Conditional normalizing flows amortized with a neural network are crucial in this construction. We discuss how they allow to rigorously define coverage for posteriors defined jointly on a product space, e.g. $\mathbb{R}^n \times \mathcal{S}^m$, which encompasses posteriors over directions. Finally, systematic uncertainties are naturally included in the variational viewpoint. The proposed extended supervised training with amortized normalizing flows incorporates (1) coverage calculation, (2) systematics and (3) a goodness-of-fit measure in a single machine-learning model. There are no constraints on the shape of the involved distributions (e.g. Gaussianity) for these properties to hold, in fact it works with complex multi-modal distributions defined on product spaces like $\mathbb{R}^n \times \mathcal{S}^m$. We see great potential for exploiting this per-event information in event selections or for fast astronomical alerts which require uncertainty guarantees.
arxiv情報
著者 | Thorsten Glüsenkamp |
発行日 | 2023-10-03 17:00:23+00:00 |
arxivサイト | arxiv_id(pdf) |