Cascade Learning Localises Discriminant Features in Visual Scene Classification

要約

ディープ畳み込みニューラル ネットワーク (DCNN) の解釈可能性の欠如は、臨床医が信頼できる自動化された決定を必要としているため、特に医療分野ではよく知られた問題です。
信頼性を向上させる 1 つの方法は、専門家がラベル付けした関心領域に関して特徴表現の位置特定を実証することです。
この研究では、2 つのさまざまな学習パラダイムを通じて学習された特徴の位置特定を調査し、位置特定に関して 1 つの学習アプローチの優位性を実証します。
医療データセットと自然データセットに関する私たちの分析では、従来のエンドツーエンド (E2E) 学習戦略では、複数のネットワーク層にわたって識別特徴を局所化する能力が限られていることが示されています。
層ごとの学習戦略、つまりカスケード学習 (CL) により、より局所的な特徴が得られることを示します。
位置特定の精度を考慮すると、CL が E2E よりも優れているだけでなく、領域を予測する有望な方法であることも示します。
YOLO 物体検出フレームワークでの最良の結果は、CL が mAP で $2\%$ だけ E2E スキームよりも優れていることを示しています。

要約(オリジナル)

Lack of interpretability of deep convolutional neural networks (DCNN) is a well-known problem particularly in the medical domain as clinicians want trustworthy automated decisions. One way to improve trust is to demonstrate the localisation of feature representations with respect to expert labeled regions of interest. In this work, we investigate the localisation of features learned via two varied learning paradigms and demonstrate the superiority of one learning approach with respect to localisation. Our analysis on medical and natural datasets show that the traditional end-to-end (E2E) learning strategy has a limited ability to localise discriminative features across multiple network layers. We show that a layer-wise learning strategy, namely cascade learning (CL), results in more localised features. Considering localisation accuracy, we not only show that CL outperforms E2E but that it is a promising method of predicting regions. On the YOLO object detection framework, our best result shows that CL outperforms the E2E scheme by $2\%$ in mAP.

arxiv情報

著者 Junwen Wang,Katayoun Farrahi
発行日 2023-11-21 16:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク