Brain Captioning: Decoding human brain activity into images and text

要約

人間の脳は毎日、膨大な量の視覚情報を処理し、複雑な神経機構に依存してこれらの刺激を認識し、解釈しています。
機能的磁気共鳴画像法 (fMRI) における最近の進歩により、科学者は人間の脳の活動パターンから視覚情報を抽出できるようになりました。
この研究では、脳活動を意味のある画像とキャプションにデコードするための革新的な方法を紹介します。特に、脳による画像へのデコードと比較して柔軟性が向上した脳キャプションに焦点を当てています。
私たちのアプローチは、最先端の画像キャプション モデルを利用し、潜在拡散モデルと深度推定を利用する独自の画像再構成パイプラインを組み込んでいます。
COCO データセットの画像を閲覧した 8 人の被験者からの包括的な fMRI データセットである Natural Scenes Dataset を利用しました。
私たちは、キャプションのバックボーンとして Generative Image-to-Text Transformer (GIT) を採用し、潜在拡散モデルに基づいた新しい画像再構成パイプラインを提案しました。
この方法には、脳活動と抽出された特徴の間の正則化線形回帰モデルのトレーニングが含まれます。
さらに、再構築プロセスをさらにガイドするために、ControlNet モデルの深度マップを組み込みました。
私たちは、生成されたキャプションと画像の両方について定量的な指標を使用してメソッドを評価します。
当社の脳内キャプション手法は既存の手法を上回る性能を発揮し、画像再構成パイプラインは空間関係が改善されたもっともらしい画像を生成します。
結論として、我々は脳の解読における大きな進歩を実証し、人間の認知をよりよく理解するために視覚と言語を統合することの大きな可能性を示しました。
私たちのアプローチは、将来の研究のための柔軟なプラットフォームを提供し、ニューラル アート、スタイル転送、ポータブル デバイスなどのさまざまな分野に応用できる可能性があります。

要約(オリジナル)

Every day, the human brain processes an immense volume of visual information, relying on intricate neural mechanisms to perceive and interpret these stimuli. Recent breakthroughs in functional magnetic resonance imaging (fMRI) have enabled scientists to extract visual information from human brain activity patterns. In this study, we present an innovative method for decoding brain activity into meaningful images and captions, with a specific focus on brain captioning due to its enhanced flexibility as compared to brain decoding into images. Our approach takes advantage of cutting-edge image captioning models and incorporates a unique image reconstruction pipeline that utilizes latent diffusion models and depth estimation. We utilized the Natural Scenes Dataset, a comprehensive fMRI dataset from eight subjects who viewed images from the COCO dataset. We employed the Generative Image-to-text Transformer (GIT) as our backbone for captioning and propose a new image reconstruction pipeline based on latent diffusion models. The method involves training regularized linear regression models between brain activity and extracted features. Additionally, we incorporated depth maps from the ControlNet model to further guide the reconstruction process. We evaluate our methods using quantitative metrics for both generated captions and images. Our brain captioning approach outperforms existing methods, while our image reconstruction pipeline generates plausible images with improved spatial relationships. In conclusion, we demonstrate significant progress in brain decoding, showcasing the enormous potential of integrating vision and language to better understand human cognition. Our approach provides a flexible platform for future research, with potential applications in various fields, including neural art, style transfer, and portable devices.

arxiv情報

著者 Matteo Ferrante,Furkan Ozcelik,Tommaso Boccato,Rufin VanRullen,Nicola Toschi
発行日 2023-05-19 09:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク