Spatial encoding of BOLD fMRI time series for categorizing static images across visual datasets: A pilot study on human vision

要約

機能的 MRI (fMRI) は、脳の活動に伴って生じる酸素を含む血流の変化を検出することにより、脳の機能を検査するために広く使用されています。
この研究では、視覚に関連する神経活動の違いを理解するために、fMRI 時系列 (TS) を使用して、さまざまな視覚データセットにわたる複雑度固有の画像分類を実行します。
この目的には、公開されている BOLD5000 データセットが使用されます。このデータセットには、COCO、ImageNet、SUN の 3 つの標準コンピューター ビジョン データセットから抽出された、さまざまなカテゴリの 5254 枚の画像を表示しながら fMRI スキャンが含まれています。
視覚を理解するには、さまざまな画像を見ながら脳がどのように機能するかを研究することが重要です。
これを達成するために、古典的なグラミアン角度場 (GAF) とマルコフ遷移場 (MTF) を使用して fMRI BOLD TS の空間エンコードが実行され、COCO、Imagenet、SUN の画像を表す 2D BOLD TS が取得されました。
分類のために、個々の GAF および MTF の特徴が通常の CNN に供給されます。
その後、2D 特徴を組み合わせて COCO、Imagenet、SUN 全体で画像を分類する並列 CNN モデルが採用されます。
2D CNN モデルの結果は、分類に生の fMRI BOLD 信号を利用する 1D LSTM および Bi-LSTM とも比較されます。
並列 CNN モデルは他のネットワーク モデルよりも優れており、マルチクラス分類において 7% 改善されていることがわかります。
臨床的関連性 – この分析で得られた結果は、さまざまな複雑さの画像を見ながら人間の脳がどのように異なる機能を発揮するかを研究する際のベースラインを確立します。

要約(オリジナル)

Functional MRI (fMRI) is widely used to examine brain functionality by detecting alteration in oxygenated blood flow that arises with brain activity. In this study, complexity specific image categorization across different visual datasets is performed using fMRI time series (TS) to understand differences in neuronal activities related to vision. Publicly available BOLD5000 dataset is used for this purpose, containing fMRI scans while viewing 5254 images of diverse categories, drawn from three standard computer vision datasets: COCO, ImageNet and SUN. To understand vision, it is important to study how brain functions while looking at different images. To achieve this, spatial encoding of fMRI BOLD TS has been performed that uses classical Gramian Angular Field (GAF) and Markov Transition Field (MTF) to obtain 2D BOLD TS, representing images of COCO, Imagenet and SUN. For classification, individual GAF and MTF features are fed into regular CNN. Subsequently, parallel CNN model is employed that uses combined 2D features for classifying images across COCO, Imagenet and SUN. The result of 2D CNN models is also compared with 1D LSTM and Bi-LSTM that utilizes raw fMRI BOLD signal for classification. It is seen that parallel CNN model outperforms other network models with an improvement of 7% for multi-class classification. Clinical relevance- The obtained result of this analysis establishes a baseline in studying how differently human brain functions while looking at images of diverse complexities.

arxiv情報

著者 Vamshi K. Kancharala,Debanjali Bhattacharya,Neelam Sinha
発行日 2023-09-07 09:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, eess.SP パーマリンク