Seeing What Tastes Good: Revisiting Multimodal Distributional Semantics in the Billion Parameter Era

要約

人間の学習と概念表現は、最先端の基礎モデルとは対照的に、感覚運動体験に基づいています。
この論文では、膨大な量のデータで訓練されたこのような大規模なモデルが、具体的なオブジェクトの概念のセマンティック特徴規範をどの程度うまく表しているかを調査します。
バラは赤く、甘い匂いがし、花です。
より具体的には、これらのモデルが認識しているオブジェクトのプロパティをテストするために、調査タスクを使用します。
イメージデータのみでトレーニングされた画像エンコーダー、およびマルチモダイアルトレーニングを受けた画像エンコーダと言語のみのモデルを評価し、古典的なMCRAEノルムの拡張密度の高いバージョンと属性評価の新しいバインダーデータセットを予測します。
マルチモーダルイメージエンコーダーは、言語のみのアプローチをわずかに上回るエンコーダーであり、「Encyclopedic」または「function」に分類される非視覚属性であっても、画像のみのエンコーダーが言語モデルに同等に機能することがわかります。
これらの結果は、純粋な単峰性学習から学ぶことができること、およびモダリティの相補性に関する新しい洞察を提供します。

要約(オリジナル)

Human learning and conceptual representation is grounded in sensorimotor experience, in contrast to state-of-the-art foundation models. In this paper, we investigate how well such large-scale models, trained on vast quantities of data, represent the semantic feature norms of concrete object concepts, e.g. a ROSE is red, smells sweet, and is a flower. More specifically, we use probing tasks to test which properties of objects these models are aware of. We evaluate image encoders trained on image data alone, as well as multimodally-trained image encoders and language-only models, on predicting an extended denser version of the classic McRae norms and the newer Binder dataset of attribute ratings. We find that multimodal image encoders slightly outperform language-only approaches, and that image-only encoders perform comparably to the language models, even on non-visual attributes that are classified as ‘encyclopedic’ or ‘function’. These results offer new insights into what can be learned from pure unimodal learning, and the complementarity of the modalities.

arxiv情報

著者 Dan Oneata,Desmond Elliott,Stella Frank
発行日 2025-06-04 14:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク