要約
深層学習の最近の進歩は、主に内部表現でモデルを構築しており、その背後にある理論的根拠と決定を人間のユーザーに説明することは不透明です。
このような説明可能性は、さまざまなドメイン間でより適応性の高いモデルを開発する必要があるドメイン適応にとって特に重要です。
このホワイト ペーパーでは、ソース ドメインの各サンプルが、ターゲット ドメインのサンプルに対するネットワークの予測にどの程度寄与しているかという質問をします。
これに対処するために、分類器が決定を下す証拠としてターゲット サンプルの最も近いソース サンプルを学習する、新しい解釈可能な深層分類器 (IDC) を考案します。
技術的には、IDC は各カテゴリの微分可能なメモリ バンクを維持し、メモリ スロットはキーと値のペアの形式を導出します。
キーは識別可能なソース サンプルの特徴を記録し、値は対応するプロパティ (カテゴリを説明するための特徴の代表的なスコアなど) を格納します。
IDC は、IDC の出力とソース サンプルのラベルとの間の損失を計算し、逆伝播して代表的なスコアを調整し、メモリ バンクを更新します。
Office-Home および VisDA-2017 データセットに関する広範な実験により、IDC が精度の低下がほとんどない、より説明可能なモデルにつながり、最適な拒否オプションの分類を効果的に調整することが実証されました。
さらに驚くべきことに、IDC を事前のインタープリターとして使用する場合、IDC が選択した 0.1% のソース トレーニング データを利用しても、教師なしドメイン適応のために VisDA-2017 の完全なトレーニング セットを使用するよりも優れた結果が得られます。
要約(オリジナル)
The recent advances in deep learning predominantly construct models in their internal representations, and it is opaque to explain the rationale behind and decisions to human users. Such explainability is especially essential for domain adaptation, whose challenges require developing more adaptive models across different domains. In this paper, we ask the question: how much each sample in source domain contributes to the network’s prediction on the samples from target domain. To address this, we devise a novel Interpretable Deep Classifier (IDC) that learns the nearest source samples of a target sample as evidence upon which the classifier makes the decision. Technically, IDC maintains a differentiable memory bank for each category and the memory slot derives a form of key-value pair. The key records the features of discriminative source samples and the value stores the corresponding properties, e.g., representative scores of the features for describing the category. IDC computes the loss between the output of IDC and the labels of source samples to back-propagate to adjust the representative scores and update the memory banks. Extensive experiments on Office-Home and VisDA-2017 datasets demonstrate that our IDC leads to a more explainable model with almost no accuracy degradation and effectively calibrates classification for optimum reject options. More remarkably, when taking IDC as a prior interpreter, capitalizing on 0.1% source training data selected by IDC still yields superior results than that uses full training set on VisDA-2017 for unsupervised domain adaptation.
arxiv情報
著者 | Yiheng Zhang,Ting Yao,Zhaofan Qiu,Tao Mei |
発行日 | 2022-11-15 15:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google