Multi-modal brain encoding models for multi-modal stimuli

要約

画像やサイレントビデオを視聴するなどの単峰性刺激に従事している参加者にもかかわらず、最近の研究では、マルチモーダルトランスモデルが不一致のモダリティ表現であっても、視覚的な脳活動を印象的によく予測できることが実証されています。
これは、参加者がマルチモーダル刺激に従事しているときに、これらのマルチモーダルモデルが脳の活動をどれほど正確に予測できるかという問題を提起します。
これらのモデルがますます一般的になるにつれて、神経活動の研究における使用は、私たちの脳がそのようなマルチモーダルの自然主義的刺激にどのように反応するかについての洞察を提供します。
この質問は、複数のユニモーダルと2種類のマルチモーダルモデル – クロスモーダルを使用して、参加者が映画を視聴しているときにどのタイプのモデルがfMRI脳活動に関連しているかを決定するために、共同で事前に前提条件を調査します。
両方のタイプのマルチモーダルモデルが、いくつかの言語および視覚領域での調整が改善されていることを確認します。
この研究は、どの脳領域が単峰性とマルチモーダル情報を処理するかを特定するのにも役立ちます。
さらに、マルチモーダル表現から単峰性の特徴を慎重に削除することにより、マルチモーダルアライメントへの各モダリティの貢献をさらに調査し、視覚領域と言語領域で処理される単峰性の埋め込みを超えた追加情報があることがわかります。
この調査に基づいて、クロスモーダルモデルの場合、それらの脳の整合は部分的にビデオのモダリティに起因することがわかります。
共同前のモデルの場合、ビデオとオーディオモダリティの両方に部分的に起因します。
これは、神経科学コミュニティが、脳におけるマルチモーダル情報処理の理解を深めるためのこれらのモデルの解釈可能性を調査するための強い動機として機能します。

要約(オリジナル)

Despite participants engaging in unimodal stimuli, such as watching images or silent videos, recent work has demonstrated that multi-modal Transformer models can predict visual brain activity impressively well, even with incongruent modality representations. This raises the question of how accurately these multi-modal models can predict brain activity when participants are engaged in multi-modal stimuli. As these models grow increasingly popular, their use in studying neural activity provides insights into how our brains respond to such multi-modal naturalistic stimuli, i.e., where it separates and integrates information across modalities through a hierarchy of early sensory regions to higher cognition. We investigate this question by using multiple unimodal and two types of multi-modal models-cross-modal and jointly pretrained-to determine which type of model is more relevant to fMRI brain activity when participants are engaged in watching movies. We observe that both types of multi-modal models show improved alignment in several language and visual regions. This study also helps in identifying which brain regions process unimodal versus multi-modal information. We further investigate the contribution of each modality to multi-modal alignment by carefully removing unimodal features one by one from multi-modal representations, and find that there is additional information beyond the unimodal embeddings that is processed in the visual and language regions. Based on this investigation, we find that while for cross-modal models, their brain alignment is partially attributed to the video modality; for jointly pretrained models, it is partially attributed to both the video and audio modalities. This serves as a strong motivation for the neuroscience community to investigate the interpretability of these models for deepening our understanding of multi-modal information processing in brain.

arxiv情報

著者 Subba Reddy Oota,Khushbu Pahwa,Mounika Marreddy,Maneesh Singh,Manish Gupta,Bapi S. Raju
発行日 2025-05-26 14:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS, eess.IV, q-bio.NC パーマリンク