Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification

要約

視覚モデルは画像分類には優れていますが、目に見えない領域から画像を分類したり、新しいカテゴリを発見したりするなど、目に見えないデータに一般化するのは困難です。
この論文では、視覚的分類における論理的推論と深層学習の一般化との関係を調査します。
L-Reg と呼ばれる論理正則化が導出され、論理分析フレームワークを画像分類に橋渡しします。
私たちの研究により、L-Reg が特徴分布と分類器の重みの点でモデルの複雑さを軽減していることが明らかになりました。
具体的には、L-Reg によってもたらされる解釈可能性を明らかにします。L-Reg により、モデルが分類のために顔や人物などの顕著な特徴を抽出できるようになります。
理論分析と実験により、L-Reg がマルチドメインの一般化や一般化されたカテゴリの発見など、さまざまなシナリオにわたって一般化を強化することが実証されています。
画像が未知のクラスや目に見えない領域にまたがる複雑な現実世界のシナリオにおいて、L-Reg は一貫して一般化を向上させ、その実用的な有効性を強調します。

要約(オリジナル)

Vision models excel in image classification but struggle to generalize to unseen data, such as classifying images from unseen domains or discovering novel categories. In this paper, we explore the relationship between logical reasoning and deep learning generalization in visual classification. A logical regularization termed L-Reg is derived which bridges a logical analysis framework to image classification. Our work reveals that L-Reg reduces the complexity of the model in terms of the feature distribution and classifier weights. Specifically, we unveil the interpretability brought by L-Reg, as it enables the model to extract the salient features, such as faces to persons, for classification. Theoretical analysis and experiments demonstrate that L-Reg enhances generalization across various scenarios, including multi-domain generalization and generalized category discovery. In complex real-world scenarios where images span unknown classes and unseen domains, L-Reg consistently improves generalization, highlighting its practical efficacy.

arxiv情報

著者 Zhaorui Tan,Xi Yang,Qiufeng Wang,Anh Nguyen,Kaizhu Huang
発行日 2024-11-12 15:16:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク