Stitching Gaps: Fusing Situated Perceptual Knowledge with Vision Transformers for High-Level Image Classification

要約

特に画像内の抽象概念 (AC) の検出において、自動的な高レベルの画像理解に対する需要が高まっており、革新的でより解釈可能なアプローチの必要性が強調されています。
これらのアプローチでは、従来の深視力手法と、人間が画像を複雑な意味レベルで解釈するために使用する微妙な文脈依存の知識を調和させる必要があります。
この研究では、文化的画像の状況に応じた知覚知識を活用して、AC 画像分類のパフォーマンスと解釈可能性を向上させます。
画像から知覚的な意味単位を自動的に抽出し、それをモデル化して ARTstract Knowledge Graph (AKG) に統合します。
このリソースは、AC でラベル付けされた 14,000 を超える文化的イメージから収集された、状況に応じた知覚意味論をキャプチャします。
さらに、高レベルの言語フレームで AKG を強化します。
私たちは KG エンベディングを計算し、相対表現と、これらのエンベディングをビジュアル トランスフォーマー エンベディングと融合するハイブリッド アプローチを実験します。
最後に、解釈可能性のために、トレーニング インスタンスとのモデルの類似性を調べることにより、事後定性分析を実行します。
我々の結果は、我々のハイブリッド KGE-ViT 手法が AC 画像分類における既存の手法よりも優れていることを示しています。
事後解釈可能性分析は、より抽象的で意味論的なシーン要素を表現する際の私たちの方法の有効性とは対照的に、ピクセルレベルの視覚属性をキャプチャするビジュアルトランスフォーマーの熟練度を明らかにします。
我々は、AC画像分類に対するKGE埋め込みの状況に応じた知覚知識と深い視覚モデルの感覚知覚理解の間の相乗効果と相補性を実証します。
この研究は、下流の複雑な視覚的理解タスクで使用するための、知識統合と堅牢な画像表現のための神経記号的手法の強力な可能性を示唆しています。
すべての資料とコードはオンラインで入手できます。

要約(オリジナル)

The increasing demand for automatic high-level image understanding, particularly in detecting abstract concepts (AC) within images, underscores the necessity for innovative and more interpretable approaches. These approaches need to harmonize traditional deep vision methods with the nuanced, context-dependent knowledge humans employ to interpret images at intricate semantic levels. In this work, we leverage situated perceptual knowledge of cultural images to enhance performance and interpretability in AC image classification. We automatically extract perceptual semantic units from images, which we then model and integrate into the ARTstract Knowledge Graph (AKG). This resource captures situated perceptual semantics gleaned from over 14,000 cultural images labeled with ACs. Additionally, we enhance the AKG with high-level linguistic frames. We compute KG embeddings and experiment with relative representations and hybrid approaches that fuse these embeddings with visual transformer embeddings. Finally, for interpretability, we conduct posthoc qualitative analyses by examining model similarities with training instances. Our results show that our hybrid KGE-ViT methods outperform existing techniques in AC image classification. The posthoc interpretability analyses reveal the visual transformer’s proficiency in capturing pixel-level visual attributes, contrasting with our method’s efficacy in representing more abstract and semantic scene elements. We demonstrate the synergy and complementarity between KGE embeddings’ situated perceptual knowledge and deep visual model’s sensory-perceptual understanding for AC image classification. This work suggests a strong potential of neuro-symbolic methods for knowledge integration and robust image representation for use in downstream intricate visual comprehension tasks. All the materials and code are available online.

arxiv情報

著者 Delfina Sol Martinez Pandiani,Nicolas Lazzari,Valentina Presutti
発行日 2024-02-29 16:46:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク