要約
教師あり分類設定では、推論中にディープ ネットワークが通常、複数の予測を行います。
このような予測のペア (上位 k 個の予測に含まれる予測) では、2 つの異なる可能性が発生する可能性があります。
一方で、2 つの予測はそれぞれ、入力内の 2 つの異なるエンティティ セットによって主に駆動される可能性があります。
一方、単一のエンティティまたはエンティティのセットが、問題の両方のクラスの予測を推進している可能性があります。
この後者のケースは、事実上、ネットワークが 1 つのエンティティ タイプの ID について 2 つの異なる推測を行うことに対応します。
明らかに、両方の推測が真になることはあり得ません。つまり、両方のラベルが入力に存在することはできません。
解釈可能性研究における現在の手法では、通常、一度に 1 つのクラス ラベルの入力属性を考慮するため、これら 2 つのケースを容易に明確にすることはできません。
ここでは、最新のセグメンテーションと入力アトリビューション技術を活用して、そのためのフレームワークと方法を紹介します。
特に、私たちのフレームワークは、各ケースの単純な反事実の「証明」も提供しており、モデルへの入力を検証できます(つまり、メソッドを再度実行することなく)。
この方法が、ImageNet 検証セットの多数のサンプルおよび複数のモデルに対して良好に機能することを示します。
要約(オリジナル)
In the supervised classification setting, during inference, deep networks typically make multiple predictions. For a pair of such predictions (that are in the top-k predictions), two distinct possibilities might occur. On the one hand, each of the two predictions might be primarily driven by two distinct sets of entities in the input. On the other hand, it is possible that there is a single entity or set of entities that is driving the prediction for both the classes in question. This latter case, in effect, corresponds to the network making two separate guesses about the identity of a single entity type. Clearly, both the guesses cannot be true, i.e. both the labels cannot be present in the input. Current techniques in interpretability research do not readily disambiguate these two cases, since they typically consider input attributions for one class label at a time. Here, we present a framework and method to do so, leveraging modern segmentation and input attribution techniques. Notably, our framework also provides a simple counterfactual ‘proof’ of each case, which can be verified for the input on the model (i.e. without running the method again). We demonstrate that the method performs well for a number of samples from the ImageNet validation set and on multiple models.
arxiv情報
著者 | Nuthan Mummani,Simran Ketha,Venkatakrishnan Ramaswamy |
発行日 | 2024-10-25 11:16:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google