要約
大規模な視覚-言語事前学習は、様々な下流タスクにおいて目覚しい進歩を遂げている。既存の手法は、主に画像とテキストのグローバルな表現の類似性によってクロスモーダルなアライメントをモデル化するか、画像とテキストの特徴にクロスモーダルな注意を向けることで高度な学習を行っている。しかし、これらの手法は、グローバルな画像とテキストのアライメント情報しか利用できないため、視覚領域とテキストフレーズ間のきめ細かな意味的アライメントを明示的に学習することはできない。本論文では、ゲーム理論的な相互作用の新しい観点から、きめ細かい意味的なアライメントを学習する、きめ細かい意味的アライメント視覚・言語処理学習フレームワークLOUPEを紹介する。ゲーム理論的相互作用を効率的に計算するために、我々はさらに不確実性を考慮したニューラルシャプレー相互作用学習モジュールを提案する。実験により、LOUPEは画像-テキスト検索ベンチマークにおいて最先端の性能を達成することが示された。また、LOUPEはオブジェクトレベルの人間の注釈や微調整を必要とせず、オブジェクト検出と視覚的接地において競争力のある性能を達成する。さらに重要なことは、LOUPEは大規模な生の画像とテキストのペアからきめ細かい意味づけを学習するという、新しい有望な方向性を切り開いたことである。
要約(オリジナル)
Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text features. However, they fail to explicitly learn the fine-grained semantic alignment between visual regions and textual phrases, as only global image-text alignment information is available. In this paper, we introduce LOUPE, a fine-grained semantically aLigned visiOn-langUage PrE-training framework, which learns fine-grained semantic alignment from the novel perspective of game-theoretic interactions. To efficiently compute the game-theoretic interactions, we further propose an uncertainty-aware neural Shapley interaction learning module. Experiments show that LOUPE achieves state-of-the-art on image-text retrieval benchmarks. Without any object-level human annotations and fine-tuning, LOUPE achieves competitive performance on object detection and visual grounding. More importantly, LOUPE opens a new promising direction of learning fine-grained semantics from large-scale raw image-text pairs.
arxiv情報
著者 | Juncheng Li,Xin He,Longhui Wei,Long Qian,Linchao Zhu,Lingxi Xie,Yueting Zhuang,Qi Tian,Siliang Tang |
発行日 | 2022-08-04 07:51:48+00:00 |
arxivサイト | arxiv_id(pdf) |