I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification

要約

ゼロショット学習 (ZSL) の驚異的な進歩にもかかわらず、既存の方法の大部分は依然として人間が注釈を付けた属性に依存しており、注釈付けとスケーリングが困難です。
教師なしの代替手段は、セマンティック クラス名に関連付けられた単語埋め込みを使用して各クラスを表すことです。
ただし、事前にトレーニングされた言語モデルから抽出された単語の埋め込みは、必ずしも視覚的な類似性を捉えているとは限らないため、ゼロ ショット パフォーマンスが低下します。
この作業では、ウィキペディアなどのオンライン テキスト ドキュメントには、オブジェクト クラスに関する豊富な視覚的説明が含まれているため、ZSL の強力な教師なしサイド情報として使用できると主張します。
この目的のために、共有埋め込み空間で両方のモダリティを調整することにより、画像とドキュメントをエンコードすることを共同で学習する新しいトランスフォーマーベースの ZSL フレームワークである I2DFormer を提案します。
ノイズの多いドキュメントから差別的なビジュアル ワードを抽出するために、画像パッチとドキュメント ワード間のきめの細かい相互作用を学習する新しいクロスモーダル アテンション モジュールを導入します。
その結果、I2DFormer は、視覚的な類似性を捉える非常に識別可能なドキュメントの埋め込みを学習するだけでなく、画像領域内の視覚的に関連する単語をローカライズする能力も獲得します。
定量的には、I2DFormer が、3 つのパブリック データセットのゼロ ショット学習設定と一般化されたゼロ ショット学習設定の両方で、以前の教師なしセマンティック埋め込みよりも大幅に優れていることを示しています。
定性的には、私たちの方法が、ドキュメントの単語が画像領域に基づいている可能性がある非常に解釈可能な結果につながることを示しています。

要約(オリジナル)

Despite the tremendous progress in zero-shot learning(ZSL), the majority of existing methods still rely on human-annotated attributes, which are difficult to annotate and scale. An unsupervised alternative is to represent each class using the word embedding associated with its semantic class name. However, word embeddings extracted from pre-trained language models do not necessarily capture visual similarities, resulting in poor zero-shot performance. In this work, we argue that online textual documents, e.g., Wikipedia, contain rich visual descriptions about object classes, therefore can be used as powerful unsupervised side information for ZSL. To this end, we propose I2DFormer, a novel transformer-based ZSL framework that jointly learns to encode images and documents by aligning both modalities in a shared embedding space. In order to distill discriminative visual words from noisy documents, we introduce a new cross-modal attention module that learns fine-grained interactions between image patches and document words. Consequently, our I2DFormer not only learns highly discriminative document embeddings that capture visual similarities but also gains the ability to localize visually relevant words in image regions. Quantitatively, we demonstrate that our I2DFormer significantly outperforms previous unsupervised semantic embeddings under both zero-shot and generalized zero-shot learning settings on three public datasets. Qualitatively, we show that our method leads to highly interpretable results where document words can be grounded in the image regions.

arxiv情報

著者 Muhammad Ferjad Naeem,Yongqin Xian,Luc Van Gool,Federico Tombari
発行日 2022-09-21 12:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク