要約
さまざまなタスクへの適用に成功しているにもかかわらず、ニューラル ネットワークは、他の機械学習手法と同様に、データの変化に対する感度によって制限されたままです。ニューラル ネットワークのパフォーマンスは、トレーニングに使用されたデータとトレーニングされたデータの間の分布の違いによって重大な影響を受ける可能性があります。
それらが展開されます。
この記事では、MAGDiff と呼ばれる新しい表現ファミリーを提案します。これは、任意のニューラル ネットワーク分類器から抽出され、このタスク専用の新しいモデルをトレーニングすることなく、効率的な共変量データ シフト検出を可能にします。
これらの表現は、トレーニング分布とターゲット分布に属するサンプルのニューラル ネットワークの活性化グラフを比較することによって計算され、データセット シフト検出に一般的に使用される 2 サンプル テストの強力なデータおよびタスクに適応した統計を生成します。
我々は、いくつかの異なるデータセットとシフトタイプに対する 2 サンプルのコルモゴロフ・スミルノフ (KS) 検定の統計的検出力を測定し、我々の新しい表現が、
ネットワーク出力。
要約(オリジナル)
Despite their successful application to a variety of tasks, neural networks remain limited, like other machine learning methods, by their sensitivity to shifts in the data: their performance can be severely impacted by differences in distribution between the data on which they were trained and that on which they are deployed. In this article, we propose a new family of representations, called MAGDiff, that we extract from any given neural network classifier and that allows for efficient covariate data shift detection without the need to train a new model dedicated to this task. These representations are computed by comparing the activation graphs of the neural network for samples belonging to the training distribution and to the target distribution, and yield powerful data- and task-adapted statistics for the two-sample tests commonly used for data set shift detection. We demonstrate this empirically by measuring the statistical powers of two-sample Kolmogorov-Smirnov (KS) tests on several different data sets and shift types, and showing that our novel representations induce significant improvements over a state-of-the-art baseline relying on the network output.
arxiv情報
著者 | Felix Hensel,Charles Arnal,Mathieu Carrière,Théo Lacombe,Hiroaki Kurihara,Yuichi Ike,Frédéric Chazal |
発行日 | 2023-05-22 17:34:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google