Hyperbolic Image-Text Representations

要約

視覚的および言語的概念は自然に階層構造に編成され、テキスト概念「犬」には犬を含むすべての画像が含まれます。
CLIP などの現在の大規模なビジョンおよび言語モデルは、直感的であるにもかかわらず、そのような階層を明示的に捉えていません。
私たちは、画像とテキストの双曲線表現を生み出す対照モデルである MERU を提案します。
双曲空間にはツリー状のデータを埋め込むのに適した幾何学的特性があるため、MERU は画像テキスト データセットの基礎となる階層をより適切にキャプチャできます。
私たちの結果は、MERU が、画像分類や画像テキスト検索などの標準的なマルチモーダル タスクにおいて CLIP のパフォーマンスと競合しながら、高度に解釈可能で構造化された表現空間を学習することを示しています。
私たちのコードとモデルは https://www.github.com/facebookresearch/meru で入手できます。

要約(オリジナル)

Visual and linguistic concepts naturally organize themselves in a hierarchy, where a textual concept ‘dog’ entails all images that contain dogs. Despite being intuitive, current large-scale vision and language models such as CLIP do not explicitly capture such hierarchy. We propose MERU, a contrastive model that yields hyperbolic representations of images and text. Hyperbolic spaces have suitable geometric properties to embed tree-like data, so MERU can better capture the underlying hierarchy in image-text datasets. Our results show that MERU learns a highly interpretable and structured representation space while being competitive with CLIP’s performance on standard multi-modal tasks like image classification and image-text retrieval. Our code and models are available at https://www.github.com/facebookresearch/meru

arxiv情報

著者 Karan Desai,Maximilian Nickel,Tanmay Rajpurohit,Justin Johnson,Ramakrishna Vedantam
発行日 2024-01-18 17:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク