要約
脳の解読は、測定可能な脳活動を使用して精神状態または知覚入力の内部表現を推測する計算神経科学の分野です。
したがって、意味的および文脈上の類似性にも依存する脳のデコードへの新しいアプローチを提案します。
自然な画像視覚の fMRI データセットを採用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在に触発されたディープ ラーニング デコード パイプラインを作成します。
fMRI アクティビティ機能を視覚刺激機能にマッピングする線形脳-機能モデルをトレーニングします。脳は、事前トレーニング済み畳み込みニューラル ネットワークの最後の畳み込み層によって表される潜在空間に同相の空間に視覚情報を投影すると仮定します。
通常、概念間の類似点と相違点を要約して強調するさまざまなセマンティック機能を収集します。
次に、これらの特徴は最近傍法を使用して潜在空間で分類され、その結果を使用して生成潜在拡散モデルを調整し、新しい画像を作成します。
fMRIデータのみから、元のコンテンツと意味レベルで非常によく一致する視覚刺激の再構成を生成し、以前の文献の最先端を超えています。
私たちは自分たちの仕事を評価し、定量的セマンティック メトリクス (平均値 0.57 の WordNet レキシコンに対する Wu-Palmer 類似性メトリクス) を使用して良い結果を得て、人間による評価実験を行い、その結果、複数の多重度に従って正しい評価が得られました。
テスト セットの 80% 以上で、画像の類似性を評価する際の人間の基準。
要約(オリジナル)
Brain decoding is a field of computational neuroscience that uses measurable brain activity to infer mental states or internal representations of perceptual inputs. Therefore, we propose a novel approach to brain decoding that also relies on semantic and contextual similarity. We employ an fMRI dataset of natural image vision and create a deep learning decoding pipeline inspired by the existence of both bottom-up and top-down processes in human vision. We train a linear brain-to-feature model to map fMRI activity features to visual stimuli features, assuming that the brain projects visual information onto a space that is homeomorphic to the latent space represented by the last convolutional layer of a pretrained convolutional neural network, which typically collects a variety of semantic features that summarize and highlight similarities and differences between concepts. These features are then categorized in the latent space using a nearest-neighbor strategy, and the results are used to condition a generative latent diffusion model to create novel images. From fMRI data only, we produce reconstructions of visual stimuli that match the original content very well on a semantic level, surpassing the state of the art in previous literature. We evaluate our work and obtain good results using a quantitative semantic metric (the Wu-Palmer similarity metric over the WordNet lexicon, which had an average value of 0.57) and perform a human evaluation experiment that resulted in correct evaluation, according to the multiplicity of human criteria in evaluating image similarity, in over 80% of the test set.
arxiv情報
著者 | Matteo Ferrante,Tommaso Boccato,Nicola Toschi |
発行日 | 2022-12-13 16:54:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google