Modality-Agnostic fMRI Decoding of Vision and Language

要約

これまでの研究では、画像を閲覧している被験者の脳活性化データを、視覚モデル(モダリティ固有のデコード)だけでなく言語モデル(クロスモーダルデコード)の特徴表現空間にマッピングできることが示されています。
この研究では、画像とそのような画像のテキスト説明の両方を視聴する人々の新しい大規模 fMRI データセット (被験者あたり約 8,500 回の試行) を導入し、使用します。
この新しいデータセットにより、モダリティに依存しないデコーダーの開発が可能になります。これは、刺激が提示されるモダリティ (画像またはテキスト) に関係なく、被験者がどの刺激を見ているかを予測できる単一のデコーダーです。
私たちは、そのようなデコーダーを訓練して評価し、公的に入手可能な広範な視覚、言語、およびマルチモーダル (視覚 + 言語) モデルからの刺激表現に脳信号をマッピングします。
我々の調査結果は、(1) モダリティに依存しないデコーダは、モダリティ固有のデコーダと同様に (場合によってはそれよりも優れた) パフォーマンスを発揮する (2) 脳データをユニモーダル モデルの表現にマッピングするモダリティに依存しないデコーダは、マルチモーダル表現に依存するデコーダと同様にパフォーマンスを発揮することを明らかにしました。
(3) 言語と低レベルの視覚 (後頭) 脳領域はそれぞれテキストと画像刺激の解読に最も優れていますが、高レベルの視覚 (側頭) 領域は両方の種類の刺激で良好に機能します。

要約(オリジナル)

Previous studies have shown that it is possible to map brain activation data of subjects viewing images onto the feature representation space of not only vision models (modality-specific decoding) but also language models (cross-modal decoding). In this work, we introduce and use a new large-scale fMRI dataset (~8,500 trials per subject) of people watching both images and text descriptions of such images. This novel dataset enables the development of modality-agnostic decoders: a single decoder that can predict which stimulus a subject is seeing, irrespective of the modality (image or text) in which the stimulus is presented. We train and evaluate such decoders to map brain signals onto stimulus representations from a large range of publicly available vision, language and multimodal (vision+language) models. Our findings reveal that (1) modality-agnostic decoders perform as well as (and sometimes even better than) modality-specific decoders (2) modality-agnostic decoders mapping brain data onto representations from unimodal models perform as well as decoders relying on multimodal representations (3) while language and low-level visual (occipital) brain regions are best at decoding text and image stimuli, respectively, high-level visual (temporal) regions perform well on both stimulus types.

arxiv情報

著者 Mitja Nikolaus,Milad Mozafari,Nicholas Asher,Leila Reddy,Rufin VanRullen
発行日 2024-03-18 13:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク