ViTree: Single-path Neural Tree for Step-wise Interpretable Fine-grained Visual Categorization

要約

コンピューター ビジョンが進歩し続け、さまざまなドメインに広く応用されるようになるにつれて、ディープ ラーニング モデルの解釈可能性の必要性が最も重要になります。
既存の手法は、意思決定プロセスを説明するために事後的な手法やプロトタイプに頼ることが多く、間接的で本質的な説明が欠けている場合があります。
この研究では、特徴抽出バックボーンとして人気のあるビジョン トランスフォーマーとニューラル デシジョン ツリーを組み合わせた、きめの細かい視覚的分類のための新しいアプローチである ViTree を紹介します。
ViTree は、ツリー パスをトラバースすることにより、トランスフォーマで処理されたフィーチャからパッチを効果的に選択して、有益な局所領域を強調表示し、それによって段階的に表現を洗練します。
ソフト分布やパスのアンサンブルに依存する以前のツリーベースのモデルとは異なり、ViTree は単一のツリー パスを選択し、より明確でシンプルな意思決定プロセスを提供します。
このパッチとパスの選択性により、ViTree のモデルの解釈可能性が向上し、モデルの内部動作についてのより良い洞察が可能になります。
驚くべきことに、広範な実験により、この合理化されたアプローチがさまざまな強力な競合他社を上回り、多視点手法によって証明された優れた解釈可能性を維持しながら、最先端のパフォーマンスを達成できることが検証されています。
コードは https://github.com/SJTU-DeepVisionLab/ViTree で見つけることができます。

要約(オリジナル)

As computer vision continues to advance and finds widespread applications across various domains, the need for interpretability in deep learning models becomes paramount. Existing methods often resort to post-hoc techniques or prototypes to explain the decision-making process, which can be indirect and lack intrinsic illustration. In this research, we introduce ViTree, a novel approach for fine-grained visual categorization that combines the popular vision transformer as a feature extraction backbone with neural decision trees. By traversing the tree paths, ViTree effectively selects patches from transformer-processed features to highlight informative local regions, thereby refining representations in a step-wise manner. Unlike previous tree-based models that rely on soft distributions or ensembles of paths, ViTree selects a single tree path, offering a clearer and simpler decision-making process. This patch and path selectivity enhances model interpretability of ViTree, enabling better insights into the model’s inner workings. Remarkably, extensive experimentation validates that this streamlined approach surpasses various strong competitors and achieves state-of-the-art performance while maintaining exceptional interpretability which is proved by multi-perspective methods. Code can be found at https://github.com/SJTU-DeepVisionLab/ViTree.

arxiv情報

著者 Danning Lao,Qi Liu,Jiazi Bu,Junchi Yan,Wei Shen
発行日 2024-01-30 14:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク