要約
言語モデルからのテキスト表現は、言語処理に関与する人間の神経活動を著しく予測していることが証明されており、最近の変圧器ベースのモデルは、下流のタスクでの以前のアーキテクチャを上回り、脳反応の予測を上回っています。
ただし、言語のみのモデルによって学んだ単語表現は、他のモダリティからの感覚情報を欠いているという点で制限される場合があります。
ここでは、現在の事前に訓練された視覚言語モデル(VLM)を活用して、それらが動作させる視覚言語情報の統合が、言語のみの入力で訓練されたモデルで得られるモデルよりも人間の脳活動に沿った表現につながるかどうかを調査します。
参加者が完全な文または写真のいずれかのコンテキストで概念語を読む間、記録されたfMRI応答に焦点を当てます。
我々の結果は、VLM表現は、言語のみのモデルと言語処理に機能的に関連する脳領域の活性化を伴う言語のみのモデルよりも強く相関することを明らかにしています。
さらに、トランスベースのビジョン言語エンコーダー(LXMERTやVisualBertなど)が生成VLMよりも脳に合った表現を生成することがわかります。
最後に、私たちのアブレーション分析は、単象徴モジュールで既にエンコードされているのではなく、マルチモーダル前削除中に具体的に取得したセマンティック情報の結果を評価するVLMの一部によって達成された高い脳の整合性を示唆しています。
全体として、私たちの調査結果は、人間の脳の活性化を予測する際のマルチモーダルモデルの利点を示しています。これは、言語と視覚の統合のモデリングが、人間の概念表現のマルチモーダル性を捉える可能性があることを明らかにしています。
要約(オリジナル)
Text representations from language models have proven remarkably predictive of human neural activity involved in language processing, with the recent transformer-based models outperforming previous architectures in downstream tasks and prediction of brain responses. However, the word representations learnt by language-only models may be limited in that they lack sensory information from other modalities, which several cognitive and neuroscience studies showed to be reflected in human meaning representations. Here, we leverage current pre-trained vision-language models (VLMs) to investigate whether the integration of visuo-linguistic information they operate leads to representations that are more aligned with human brain activity than those obtained by models trained with language-only input. We focus on fMRI responses recorded while participants read concept words in the context of either a full sentence or a picture. Our results reveal that VLM representations correlate more strongly than those by language-only models with activations in brain areas functionally related to language processing. Additionally, we find that transformer-based vision-language encoders — e.g., LXMERT and VisualBERT — yield more brain-aligned representations than generative VLMs, whose autoregressive abilities do not seem to provide an advantage when modelling single words. Finally, our ablation analyses suggest that the high brain alignment achieved by some of the VLMs we evaluate results from semantic information acquired specifically during multimodal pretraining as opposed to being already encoded in their unimodal modules. Altogether, our findings indicate an advantage of multimodal models in predicting human brain activations, which reveals that modelling language and vision integration has the potential to capture the multimodal nature of human concept representations.
arxiv情報
著者 | Anna Bavaresco,Marianne de Heer Kloots,Sandro Pezzelle,Raquel Fernández |
発行日 | 2025-04-23 12:14:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google