LLM4Brain: Training a Large Language Model for Brain Video Understanding

要約

さまざまな被験者にわたって機能的 MRI (fMRI) などの脳信号から視覚的意味情報をデコードすることは、信号対雑音比の低さ、利用可能なデータの制限、被験者間のばらつきなどの重大な課題を引き起こします。
大規模言語モデル (LLM) の最近の進歩により、マルチモーダル情報の処理において顕著な効果が示されています。
この研究では、ビデオ刺激によって誘発された fMRI 信号から視覚意味情報を再構成するための LLM ベースのアプローチを紹介します。
具体的には、アダプターを備えた fMRI エンコーダーで微調整技術を採用し、脳の反応をビデオ刺激に合わせた潜在表現に変換します。
その後、これらの表現は LLM によってテキスト モダリティにマッピングされます。
特に、自己監視型ドメイン適応手法を統合して、視覚意味情報と脳反応の整合性を強化します。
私たちが提案した方法は、さまざまな定量的意味メトリクスを使用して良好な結果を達成し、同時にグラウンドトゥルース情報との類似性をもたらします。

要約(オリジナル)

Decoding visual-semantic information from brain signals, such as functional MRI (fMRI), across different subjects poses significant challenges, including low signal-to-noise ratio, limited data availability, and cross-subject variability. Recent advancements in large language models (LLMs) show remarkable effectiveness in processing multimodal information. In this study, we introduce an LLM-based approach for reconstructing visual-semantic information from fMRI signals elicited by video stimuli. Specifically, we employ fine-tuning techniques on an fMRI encoder equipped with adaptors to transform brain responses into latent representations aligned with the video stimuli. Subsequently, these representations are mapped to textual modality by LLM. In particular, we integrate self-supervised domain adaptation methods to enhance the alignment between visual-semantic information and brain responses. Our proposed method achieves good results using various quantitative semantic metrics, while yielding similarity with ground-truth information.

arxiv情報

著者 Ruizhe Zheng,Lichao Sun
発行日 2024-09-26 15:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク