CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification

要約

ゼロショット学習は視覚認識の広い分野で広く研究されており、最近大きな関心を集めている。しかしながら、文書画像分類におけるゼロショット学習に関する現在の研究はまだ少ない。既存の研究は、ゼロショット推論のみに焦点を当てているか、その評価が視覚認識領域におけるゼロショット評価の確立された基準に合致していないかのいずれかである。我々はこのギャップに対処するため、ゼロショット学習(ZSL)と一般化ゼロショット学習(GZSL)の設定における包括的な文書画像分類分析を提供する。我々の方法論と評価は、この領域で確立された手法と一致している。さらに、RVL-CDIPデータセットのゼロショット分割を提案する。さらに、CLIPのゼロショット学習能力を強化するフレームワークであるCICA(発音は「き・か」)を紹介する。CICAは、一般的な文書関連のテキスト情報を活用するように設計された、新しい「コンテンツモジュール」で構成される。このモジュールによって抽出された識別特徴は、CLIPのテキスト特徴および画像特徴と、新規の「結合コントラスト」損失を用いて整列される。我々のモジュールはRVL-CDIPデータセットにおいてCLIPのZSLトップ1精度を6.7%向上させ、GZSL調和平均を24%向上させる。我々のモジュールは軽量であり、CLIPに3.3%のパラメータを追加するだけである。我々の研究は、ゼロショット文書分類における将来の研究の方向性を示すものである。

要約(オリジナル)

Zero-shot learning has been extensively investigated in the broader field of visual recognition, attracting significant interest recently. However, the current work on zero-shot learning in document image classification remains scarce. The existing studies either focus exclusively on zero-shot inference, or their evaluation does not align with the established criteria of zero-shot evaluation in the visual recognition domain. We provide a comprehensive document image classification analysis in Zero-Shot Learning (ZSL) and Generalized Zero-Shot Learning (GZSL) settings to address this gap. Our methodology and evaluation align with the established practices of this domain. Additionally, we propose zero-shot splits for the RVL-CDIP dataset. Furthermore, we introduce CICA (pronounced ‘ki-ka’), a framework that enhances the zero-shot learning capabilities of CLIP. CICA consists of a novel ‘content module’ designed to leverage any generic document-related textual information. The discriminative features extracted by this module are aligned with CLIP’s text and image features using a novel ‘coupled-contrastive’ loss. Our module improves CLIP’s ZSL top-1 accuracy by 6.7% and GZSL harmonic mean by 24% on the RVL-CDIP dataset. Our module is lightweight and adds only 3.3% more parameters to CLIP. Our work sets the direction for future research in zero-shot document classification.

arxiv情報

著者 Sankalp Sinha,Muhammad Saif Ullah Khan,Talha Uddin Sheikh,Didier Stricker,Muhammad Zeshan Afzal
発行日 2024-05-06 17:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク