要約
ニューラル ネットワークのよく知られた失敗モードは、誤った予測を自信を持って返す可能性があることです。
このような安全でない動作は、ユース ケースがトレーニング コンテキストとわずかに異なる場合、および/または敵対者が存在する場合に特に頻繁に発生します。
この作業は、これらの問題に広く一般的な方法で対処するための新しい方向性を示しています。つまり、モデルの内部アクティベーション パターンにクラスを意識した制約を課すことです。
具体的には、各クラスに一意の固定されたランダムに生成されたバイナリ ベクトル (以下、クラス コードと呼びます) を割り当て、モデルをトレーニングして、入力サンプルのクラスに従って適切なクラス コードを予測するように、クロス深度のアクティベーション パターンを作成します。
結果として得られる予測子は総活性化分類子 (TAC) と呼ばれ、TAC はゼロからトレーニングするか、凍結された事前トレーニング済みニューラル ネットワークの薄いアドオンとしてごくわずかなコストで使用することができます。
TAC のアクティベーション パターンと最も近い有効なコードとの間の距離は、デフォルトの非 TAC の予測ヘッドに加えて、追加の信頼スコアとして機能します。
アドオンの場合、元のニューラル ネットワークの推論ヘッドはまったく影響を受けません (そのため、その精度は同じままです) が、仮想の生産ワークフローでどのアクションを実行するかを決定する際に、TAC 独自の信頼と予測を使用するオプションがあります。
.
特に、TAC は拒否/延期を許可されたモデルから導出された値を厳密に改善することを示しています。
TAC が複数のタイプのアーキテクチャとデータ モダリティでうまく機能し、既存のモデルから導出された最先端の代替信頼スコアと少なくとも同程度であるというさらなる経験的証拠を提供します。
要約(オリジナル)
A well-known failure mode of neural networks is that they may confidently return erroneous predictions. Such unsafe behaviour is particularly frequent when the use case slightly differs from the training context, and/or in the presence of an adversary. This work presents a novel direction to address these issues in a broad, general manner: imposing class-aware constraints on a model’s internal activation patterns. Specifically, we assign to each class a unique, fixed, randomly-generated binary vector – hereafter called class code – and train the model so that its cross-depths activation patterns predict the appropriate class code according to the input sample’s class. The resulting predictors are dubbed total activation classifiers (TAC), and TACs may either be trained from scratch, or used with negligible cost as a thin add-on on top of a frozen, pre-trained neural network. The distance between a TAC’s activation pattern and the closest valid code acts as an additional confidence score, besides the default unTAC’ed prediction head’s. In the add-on case, the original neural network’s inference head is completely unaffected (so its accuracy remains the same) but we now have the option to use TAC’s own confidence and prediction when determining which course of action to take in an hypothetical production workflow. In particular, we show that TAC strictly improves the value derived from models allowed to reject/defer. We provide further empirical evidence that TAC works well on multiple types of architectures and data modalities and that it is at least as good as state-of-the-art alternative confidence scores derived from existing models.
arxiv情報
著者 | Joao Monteiro,Pau Rodriguez,Pierre-Andre Noel,Issam Laradji,David Vazquez |
発行日 | 2022-09-29 14:26:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google