DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning

要約

ゼロ ショット学習 (ZSL) は、トレーニング中にサンプルが一度も出現したことがない未知のクラスを予測することを目的としています。
ゼロ ショット画像分類で最も効果的で広く使用されているセマンティック情報の 1 つは、クラス レベルの視覚的特性の注釈である属性です。
ただし、現在の方法では、きめの細かい注釈が不足しているだけでなく、属性の不均衡と共起が原因で、画像間の微妙な視覚的差異を区別できないことがよくあります。
このホワイト ペーパーでは、自己教師ありマルチモーダル学習パラダイムを介して事前学習済み言語モデル (PLM) からの潜在的な意味知識を統合する、DUET という名前のトランスフォーマー ベースのエンドツーエンド ZSL メソッドを紹介します。
具体的には、(1)画像からセマンティック属性を解きほぐすモデルの能力を調査するために、クロスモーダルセマンティックグラウンディングネットワークを開発しました。
(2)属性レベルの対照的な学習戦略を適用して、属性の共起と不均衡に対するきめ細かい視覚特性に対するモデルの識別をさらに強化しました。
(3)マルチモデルの目的を考慮するためのマルチタスク学習ポリシーを提案しました。
3 つの標準 ZSL ベンチマークとナレッジ グラフを備えた ZSL ベンチマークでの広範な実験により、DUET は多くの場合、最先端のパフォーマンスを達成でき、そのコンポーネントは効果的であり、その予測は解釈可能であることがわかりました。

要約(オリジナル)

Zero-shot learning (ZSL) aims to predict unseen classes whose samples have never appeared during training. One of the most effective and widely used semantic information for zero-shot image classification are attributes which are annotations for class-level visual characteristics. However, the current methods often fail to discriminate those subtle visual distinctions between images due to not only the shortage of fine-grained annotations, but also the attribute imbalance and co-occurrence. In this paper, we present a transformer-based end-to-end ZSL method named DUET, which integrates latent semantic knowledge from the pretrained language models (PLMs) via a self-supervised multimodal learning paradigm. Specifically, we (1) developed a cross-modal semantic grounding network to investigate the model’s capability of disentangling semantic attributes from the images; (2) applied an attribute-level contrastive learning strategy to further enhance the model’s discrimination on fine-grained visual characteristics against the attribute cooccurrence and imbalance; (3) proposed a multi-task learning policy for considering multi-model objectives. With extensive experiments on three standard ZSL benchmarks and a knowledge graph equipped ZSL benchmark, we find that DUET can often achieve state-of-the-art performance, its components are effective and its predictions are interpretable.

arxiv情報

著者 Zhuo Chen,Yufeng Huang,Jiaoyan Chen,Yuxia Geng,Wen Zhang,Yin Fang,Jeff Z. Pan,Wenting Song,Huajun Chen
発行日 2022-08-15 06:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク