要約
画像とテキストの表現学習は、視覚言語モデルの基礎を形成し、画像とテキストの説明のペアが共有埋め込み空間内で対照的に配置されます。
視覚的概念とテキスト的概念は自然に階層的であるため、最近の研究では、双曲空間が強力な下流パフォーマンスで視覚言語表現を学習するための高い可能性をもつ多様体として機能できることが示されています。
この研究では、個々の画像とテキストのペアを超えて、双曲線埋め込みの固有の階層的性質を完全に活用する方法を初めて示します。
私たちは双曲線視覚言語モデルのための構成的含意学習を提案します。
その考え方は、画像は文によって説明されるだけでなく、それ自体が複数のオブジェクト ボックスの構成であり、それぞれに独自のテキストによる説明が含まれるということです。
このような情報は、文から名詞を抽出し、公開されている局所的グラウンディング モデルを使用することで自由に取得できます。
対比的かつ含意ベースの目的を通じて、画像、画像ボックス、およびそれらのテキスト説明を階層的に整理する方法を示します。
数百万の画像とテキストのペアでトレーニングされた双曲線視覚言語モデルの経験的評価では、提案された構成学習アプローチが従来のユークリッド CLIP 学習や最近の双曲線代替手法よりも優れており、より優れたゼロショットと検索一般化、および明らかに強力な階層パフォーマンスを備えていることが示されています。
。
要約(オリジナル)
Image-text representation learning forms a cornerstone in vision-language models, where pairs of images and textual descriptions are contrastively aligned in a shared embedding space. Since visual and textual concepts are naturally hierarchical, recent work has shown that hyperbolic space can serve as a high-potential manifold to learn vision-language representation with strong downstream performance. In this work, for the first time we show how to fully leverage the innate hierarchical nature of hyperbolic embeddings by looking beyond individual image-text pairs. We propose Compositional Entailment Learning for hyperbolic vision-language models. The idea is that an image is not only described by a sentence but is itself a composition of multiple object boxes, each with their own textual description. Such information can be obtained freely by extracting nouns from sentences and using openly available localized grounding models. We show how to hierarchically organize images, image boxes, and their textual descriptions through contrastive and entailment-based objectives. Empirical evaluation on a hyperbolic vision-language model trained with millions of image-text pairs shows that the proposed compositional learning approach outperforms conventional Euclidean CLIP learning, as well as recent hyperbolic alternatives, with better zero-shot and retrieval generalization and clearly stronger hierarchical performance.
arxiv情報
著者 | Avik Pal,Max van Spengler,Guido Maria D’Amely di Melendugno,Alessandro Flaborea,Fabio Galasso,Pascal Mettes |
発行日 | 2024-10-09 14:12:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google