Revealing Vision-Language Integration in the Brain with Multimodal Networks

要約

私たちは、(マルチ) モードのディープ ニューラル ネットワーク (DNN) を使用して、人間の被験者が映画を観ている間に撮影された立体脳記録法 (SEEG) の記録を予測することで、人間の脳内のマルチモーダル統合部位を調査します。
私たちは、マルチモーダル統合サイトを、マルチモーダル視覚言語モデルが単峰言語、単峰視覚、または線形統合言語視覚モデルよりも正確に記録を予測する領域として運用します。
私たちのターゲット DNN モデルは、さまざまなアーキテクチャ (畳み込みネットワークやトランスフォーマーなど) とマルチモーダル トレーニング技術 (クロスアテンションや対照学習など) にまたがっています。
重要な実現ステップとして、まず、訓練された視覚モデルと言語モデルが、SEEG 信号を予測する能力において、ランダムに初期化された対応モデルより体系的に優れていることを実証します。
次に、単峰性モデルと多峰性モデルを相互に比較します。
ターゲットの DNN モデルは多くの場合、アーキテクチャ、パラメーターの数、トレーニング セットが異なるため (おそらく統合による違いがわかりにくくなります)、これらの属性をすべて同じに保つ 2 つのモデル (SLIP と SimCLR) の制御された比較を実行します。
入力モダリティは別として。
このアプローチを使用して、多峰性統合が発生していると思われるかなりの数の神経部位 (合計 1090 部位のうち平均 141 部位、または 12.94%) と脳領域を特定します。
さらに、私たちが評価するマルチモーダルトレーニング手法のバリエーションの中で、CLIP スタイルのトレーニングがこれらの部位の神経活動の下流予測に最も適していることがわかりました。

要約(オリジナル)

We use (multi)modal deep neural networks (DNNs) to probe for sites of multimodal integration in the human brain by predicting stereoencephalography (SEEG) recordings taken while human subjects watched movies. We operationalize sites of multimodal integration as regions where a multimodal vision-language model predicts recordings better than unimodal language, unimodal vision, or linearly-integrated language-vision models. Our target DNN models span different architectures (e.g., convolutional networks and transformers) and multimodal training techniques (e.g., cross-attention and contrastive learning). As a key enabling step, we first demonstrate that trained vision and language models systematically outperform their randomly initialized counterparts in their ability to predict SEEG signals. We then compare unimodal and multimodal models against one another. Because our target DNN models often have different architectures, number of parameters, and training sets (possibly obscuring those differences attributable to integration), we carry out a controlled comparison of two models (SLIP and SimCLR), which keep all of these attributes the same aside from input modality. Using this approach, we identify a sizable number of neural sites (on average 141 out of 1090 total sites or 12.94%) and brain regions where multimodal integration seems to occur. Additionally, we find that among the variants of multimodal training techniques we assess, CLIP-style training is the best suited for downstream prediction of the neural activity in these sites.

arxiv情報

著者 Vighnesh Subramaniam,Colin Conwell,Christopher Wang,Gabriel Kreiman,Boris Katz,Ignacio Cases,Andrei Barbu
発行日 2024-06-20 16:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, q-bio.NC パーマリンク