要約
対照的にトレーニングされた視覚言語モデルは、視覚と言語表現の学習において目覚ましい進歩を遂げ、さまざまな下流のマルチモーダルタスクのための最先端のモデルにつながりました。
しかし、最近の研究では、オブジェクト、属性、および関係に対して構成的推論を実行する能力において、これらのモデルの深刻な制限が浮き彫りになっています。
シーン グラフは、画像を構成的に理解するための効果的な方法として登場しました。
これらは、シーン内のオブジェクト、その属性、および他のオブジェクトとの関係を含む画像のグラフ構造の意味論的表現です。
この研究では、テキストから解析されたシーン グラフを画像シーン グラフのプロキシとして考慮し、さまざまな複雑さの文章を画像とテキストの間で粗いものから細かいものまで対比的に学習する目標とともに、グラフの分解と拡張フレームワークを提案します。
同じイメージです。
これに加えて、属性のバインディングと関係の理解を改善するために、シーン グラフ空間での新しいネガティブ マイニング手法を提案します。
広範な実験を通じて、最近提案された複数のベンチマークで、属性のバインディング、関係の理解、体系的な一般化、および生産性を大幅に向上させるアプローチの有効性を実証しました (たとえば、体系的な一般化では最大 $18\%$、関係の場合は $16.5\%$ の改善)
強力なベースラインにわたる理解)を実現しながら、さまざまな一般的なマルチモーダル タスクで CLIP と同等以上のパフォーマンスを達成します。
要約(オリジナル)
Contrastively trained vision-language models have achieved remarkable progress in vision and language representation learning, leading to state-of-the-art models for various downstream multimodal tasks. However, recent research has highlighted severe limitations of these models in their ability to perform compositional reasoning over objects, attributes, and relations. Scene graphs have emerged as an effective way to understand images compositionally. These are graph-structured semantic representations of images that contain objects, their attributes, and relations with other objects in a scene. In this work, we consider the scene graph parsed from text as a proxy for the image scene graph and propose a graph decomposition and augmentation framework along with a coarse-to-fine contrastive learning objective between images and text that aligns sentences of various complexities to the same image. Along with this, we propose novel negative mining techniques in the scene graph space for improving attribute binding and relation understanding. Through extensive experiments, we demonstrate the effectiveness of our approach that significantly improves attribute binding, relation understanding, systematic generalization, and productivity on multiple recently proposed benchmarks (For example, improvements upto $18\%$ for systematic generalization, $16.5\%$ for relation understanding over a strong baseline), while achieving similar or better performance than CLIP on various general multimodal tasks.
arxiv情報
著者 | Harman Singh,Pengchuan Zhang,Qifan Wang,Mengjiao Wang,Wenhan Xiong,Jingfei Du,Yu Chen |
発行日 | 2023-10-17 17:07:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google