HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention

要約

大規模なコントラスト視覚言語プリトレーニング(CLIP)の成功は、視覚認識とマルチモーダルコンテンツ理解の両方に利益をもたらしている。CLIPは、簡潔な設計により、より重いクロスアテンションフュージョン層を持つ他の視覚言語モデルに対して推論効率で優位に立ち、幅広い下流タスクで人気のある選択肢となっています。しかし、CLIPは、画像やテキストに含まれる高レベルできめ細かいセマンティクスの階層的な性質を明示的に捉えておらず、これは間違いなく視覚言語の理解と推論に不可欠である。このため、我々はCLIPの視覚と言語の両ブランチに階層を意識した配慮、すなわち階層を意識したCLIP(HiCLIP)を装備し、教師なし方法で画像とテキストの両方から階層ごとに意味階層を漸進的に発見している。その結果、このような階層的な集約により、クロスモーダルアライメントが著しく改善される。HiCLIPの利点を実証するため、推論時の教師なし階層誘導に関する定性的分析、および視覚認識と視覚言語下流の両タスクに関する広範な定量的実験を実施する。

要約(オリジナル)

The success of large-scale contrastive vision-language pretraining (CLIP) has benefited both visual recognition and multimodal content understanding. The concise design brings CLIP the advantage in inference efficiency against other vision-language models with heavier cross-attention fusion layers, making it a popular choice for a wide spectrum of downstream tasks. However, CLIP does not explicitly capture the hierarchical nature of high-level and fine-grained semantics conveyed in images and texts, which is arguably critical to vision-language understanding and reasoning. To this end, we equip both the visual and language branches in CLIP with hierarchy-aware attentions, namely Hierarchy-aware CLIP (HiCLIP), to progressively discover semantic hierarchies layer-by-layer from both images and texts in an unsupervised manner. As a result, such hierarchical aggregation significantly improves the cross-modal alignment. To demonstrate the advantages of HiCLIP, we conduct qualitative analysis on its unsupervised hierarchy induction during inference, as well as extensive quantitative experiments on both visual recognition and vision-language downstream tasks.

arxiv情報

著者 Shijie Geng,Jianbo Yuan,Yu Tian,Yuxiao Chen,Yongfeng Zhang
発行日 2023-03-06 09:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク