Individuation in Neural Models with and without Visual Grounding

要約

個性情報のエンコードに関して、言語と視覚のモデルである CLIP と 2 つのテキストのみのモデル (FastText と SBERT) の違いを示します。
私たちは、CLIP が基板、粒状集合体、およびさまざまな数のオブジェクトに対して提供する潜在表現を研究します。
我々は、CLIP 埋め込みがテキストのみのデータでトレーニングされたモデルよりも個体化における定量的な差異をよりよく捕捉することを実証します。
さらに、CLIP 埋め込みから推定した個性階層は、言語学および認知科学で提案されている階層と一致します。

要約(オリジナル)

We show differences between a language-and-vision model CLIP and two text-only models – FastText and SBERT – when it comes to the encoding of individuation information. We study latent representations that CLIP provides for substrates, granular aggregates, and various numbers of objects. We demonstrate that CLIP embeddings capture quantitative differences in individuation better than models trained on text-only data. Moreover, the individuation hierarchy we deduce from the CLIP embeddings agrees with the hierarchies proposed in linguistics and cognitive science.

arxiv情報

著者 Alexey Tikhonov,Lisa Bylinina,Ivan P. Yamshchikov
発行日 2024-09-27 16:04:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.10 パーマリンク