Constraining Representations Yields Models That Know What They Don’t Know

要約

タイトル:表現を制限することで、知らないことを知ることができるモデルが生み出される

要約:
– ニューラルネットワークのよく知られた失敗モードは、誤った予測を自信を持って返す場合があることである。
– このような安全でない振る舞いは、使用例がトレーニングコンテキストと若干異なる場合や、敵対的な環境下では特に頻繁に見られる。
– この研究では、モデルの内部活性化パターンにクラス別の制約を課すことで、これらの問題を広範囲かつ一般的に対処する新しい方向性を提供する。
– 具体的には、各クラスに固有の、固定された、ランダムに生成されたバイナリベクトル(以下:class codeと呼ぶ)を割り当て、モデルをトレーニングすることで、深度クロスアクティベーションパターンが入力サンプルのクラスに応じて適切なクラスコードを予測するようにする。
– その結果、得られた予測子は、Total Activation Classifier(TAC)と呼ばれ、TACはスクラッチからトレーニングすることもでき、凍結されたトレーニング済みニューラルネットワークの上に薄く追加するためのコストがほとんどないこともできる。
– TACの活性化パターンと最も近い正当なコードとの距離は、デフォルトの予測ヘッドのような追加の信頼スコアとして機能する。
– 追加の信頼性スコアでは、元のニューラルネットワークの推論ヘッドには影響を与えず、その精度は同じままであるが、TACの信頼性と予測を使用して、作業の進め方を決定することができるようになる。
– 特に、TACが拒否/延期を許可されたモデルから派生した価値を厳密に向上させることを示す。
– さらに、TACが多様なアーキテクチャやデータモダリティに対してうまく機能し、既存のモデルから派生した最新の代替信頼スコアと少なくとも同じくらい優れていることをエンパイリカルに示している。

要約(オリジナル)

A well-known failure mode of neural networks is that they may confidently return erroneous predictions. Such unsafe behaviour is particularly frequent when the use case slightly differs from the training context, and/or in the presence of an adversary. This work presents a novel direction to address these issues in a broad, general manner: imposing class-aware constraints on a model’s internal activation patterns. Specifically, we assign to each class a unique, fixed, randomly-generated binary vector – hereafter called class code – and train the model so that its cross-depths activation patterns predict the appropriate class code according to the input sample’s class. The resulting predictors are dubbed Total Activation Classifiers (TAC), and TACs may either be trained from scratch, or used with negligible cost as a thin add-on on top of a frozen, pre-trained neural network. The distance between a TAC’s activation pattern and the closest valid code acts as an additional confidence score, besides the default unTAC’ed prediction head’s. In the add-on case, the original neural network’s inference head is completely unaffected (so its accuracy remains the same) but we now have the option to use TAC’s own confidence and prediction when determining which course of action to take in an hypothetical production workflow. In particular, we show that TAC strictly improves the value derived from models allowed to reject/defer. We provide further empirical evidence that TAC works well on multiple types of architectures and data modalities and that it is at least as good as state-of-the-art alternative confidence scores derived from existing models.

arxiv情報

著者 Joao Monteiro,Pau Rodriguez,Pierre-Andre Noel,Issam Laradji,David Vazquez
発行日 2023-04-19 10:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク