要約
大規模な視覚言語の事前トレーニングは、マルチモーダルな理解と生成タスクにおいて顕著なパフォーマンスを達成しました。
しかし、既存の方法は、構造化された表現、つまりオブジェクト、属性、関係の表現を必要とする画像とテキストのマッチングタスクではパフォーマンスが低いことがよくあります。
従来のモデルでは「宇宙飛行士が馬に乗る」と「馬が宇宙飛行士に乗る」の区別ができませんでした。
これは、マルチモーダル シナリオで表現を学習するときに、構造化された知識を完全に活用できないためです。
この論文では、シーン グラフ ナレッジ (SGK) を統合してマルチモーダルな構造化表現を強化する、エンドツーエンド フレームワーク Structure-CLIP を紹介します。
まず、シーン グラフを使用してセマンティック ネガティブ サンプルの構築をガイドします。その結果、構造化された表現の学習に重点が置かれます。
さらに、構造化表現をさらに強化するための入力として SGK を活用するために、Knowledge-Enhance Encoder (KEE) が提案されています。
提案されたフレームワークの有効性を検証するために、前述のアプローチでモデルを事前トレーニングし、下流タスクで実験を実施します。
実験結果は、Structure-CLIP が VG-Attribution および VG-Relation データセットで最先端の (SOTA) パフォーマンスを達成し、マルチモーダル SOTA モデルよりもそれぞれ 12.5% および 4.1% 優れていることを示しています。
一方、MSCOCO の結果は、Structure-CLIP が一般的な表現の能力を維持しながら構造化表現を大幅に強化することを示しています。
私たちのコードは間もなく利用可能になります。
要約(オリジナル)
Large-scale vision-language pre-training has achieved significant performance in multi-modal understanding and generation tasks. However, existing methods often perform poorly on image-text matching tasks that require structured representations, i.e., representations of objects, attributes, and relations. Previous models cannot make a distinction between “An astronaut rides a horse’ and “A horse rides an astronaut’. This is because they fail to fully leverage structured knowledge when learning representations in multi-modal scenarios. In this paper, we present an end-to-end framework Structure-CLIP, which integrates Scene Graph Knowledge (SGK) to enhance multi-modal structured representations. Firstly, we use scene graphs to guide the construction of semantic negative examples, which results in an increased emphasis on learning structured representations. Moreover, a Knowledge-Enhance Encoder (KEE) is proposed to leverage SGK as input to further enhance structured representations. To verify the effectiveness of the proposed framework, we pre-train our model with the aforementioned approaches and conduct experiments on downstream tasks. Experimental results demonstrate that Structure-CLIP achieves state-of-the-art (SOTA) performance on VG-Attribution and VG-Relation datasets, with 12.5% and 4.1% ahead of the multi-modal SOTA model respectively. Meanwhile, the results on MSCOCO indicate that Structure-CLIP significantly enhances the structured representations while maintaining the ability of general representations. Our code will be available soon.
arxiv情報
著者 | Yufeng Huang,Jiji Tang,Zhuo Chen,Rongsheng Zhang,Xinfeng Zhang,Weijie Chen,Zeng Zhao,Zhou Zhao,Tangjie Lv,Zhipeng Hu,Wen Zhang |
発行日 | 2023-08-24 04:44:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google