MindGPT: Interpreting What You See with Non-invasive Brain Recordings

要約

非侵襲的な脳記録による視覚コンテンツの解読には、重要な科学的かつ実用的な価値があります。
脳の信号から見た画像を復元する努力がなされてきました。
しかし、既存のアプローチのほとんどは、不十分な画質や意味の不一致により、視覚的な内容を忠実に反映できません。
ピクセルレベルの視覚画像を再構成する場合と比較して、話すことは視覚情報を説明するより効率的かつ効果的な方法です。
ここでは、fMRI 信号から知覚された視覚刺激を自然言語に解釈する、MindGPT と呼ばれる非侵襲性ニューラル デコーダーを紹介します。
具体的には、私たちのモデルは、クロスアテンションメカニズムを備えた視覚的に誘導されるニューラルエンコーダーに基づいて構築されており、これにより、大規模言語モデルGPTを共同使用することにより、潜在的なニューラル表現を目的の言語意味論的方向に向けてエンドツーエンドで誘導することができます。

そうすることで、MindGPT の神経表現が説明可能であり、言語セマンティクスに対する視覚的プロパティの寄与を評価するために使用できることがわかりました。
私たちの実験では、生成された単語シーケンスが、見た刺激で伝えられる視覚情報 (重要な詳細を含む) を忠実に表現していることがわかりました。
この結果はまた、言語解読タスクに関しては、高次視覚野 (HVC) が下部視覚野 (LVC) よりも意味論的な情報を多く提供しており、HVC のみを使用することでほとんどの意味論的情報を回復できることも示唆しました。
MindGPT モデルのコードは、https://github.com/JxuanC/MindGPT で公開されます。

要約(オリジナル)

Decoding of seen visual contents with non-invasive brain recordings has important scientific and practical values. Efforts have been made to recover the seen images from brain signals. However, most existing approaches cannot faithfully reflect the visual contents due to insufficient image quality or semantic mismatches. Compared with reconstructing pixel-level visual images, speaking is a more efficient and effective way to explain visual information. Here we introduce a non-invasive neural decoder, termed as MindGPT, which interprets perceived visual stimuli into natural languages from fMRI signals. Specifically, our model builds upon a visually guided neural encoder with a cross-attention mechanism, which permits us to guide latent neural representations towards a desired language semantic direction in an end-to-end manner by the collaborative use of the large language model GPT. By doing so, we found that the neural representations of the MindGPT are explainable, which can be used to evaluate the contributions of visual properties to language semantics. Our experiments show that the generated word sequences truthfully represented the visual information (with essential details) conveyed in the seen stimuli. The results also suggested that with respect to language decoding tasks, the higher visual cortex (HVC) is more semantically informative than the lower visual cortex (LVC), and using only the HVC can recover most of the semantic information. The code of the MindGPT model will be publicly available at https://github.com/JxuanC/MindGPT.

arxiv情報

著者 Jiaxuan Chen,Yu Qi,Yueming Wang,Gang Pan
発行日 2023-09-27 15:35:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク