Second Sight: Using brain-optimized encoding models to align image distributions with human brain activity

要約

最近の 2 つの開発により、人間の脳活動からの画像再構成の進歩が加速しています。1 つは、何千もの自然シーンに応じた脳活動のサンプルを提供する大規模なデータセット、もう 1 つは、低および高の両方を受け入れる強力な確率的画像生成器のオープンソースです。
レベル指導。
この分野におけるほとんどの研究は、ターゲット画像の点推定値を取得することに焦点を当てており、最終的な目標は、ターゲット画像が呼び起こす脳活動パターンからターゲット画像の文字通りのピクセル単位の再構成を近似することです。
この強調は、誘発された脳活動パターンと同等に互換性のある画像のファミリーが常に存在するという事実、および多くの画像生成装置は本質的に確率的であり、それ自体では画像から単一の最適な再構成を選択する方法を提供しないという事実を裏切ります。
彼らが生成するサンプルの中には。
我々は、ボクセルごとの符号化モデルの予測とターゲット画像によって引き起こされる脳活動パターンとの間の整合性を明示的に最大化するために、画像分布を反復的に改良する新しい再構成手順 (Second Sight) を導入します。
私たちのプロセスは、繰り返しを通じて意味論的なコンテンツと低レベルの画像の詳細の両方を洗練することにより、高品質の再構成の分布に収束することを示します。
これらの収束された画像分布からサンプリングされた画像は、最先端の再構成アルゴリズムと競合します。
興味深いことに、収束までの時間は視覚皮質全体で体系的に異なり、一般に初期の視覚野ではより長い時間がかかり、高次の脳領域に比べて狭い画像分布に収束します。
したがって、Second Sight は、視覚脳領域にわたる表現の多様性を探索するための簡潔で斬新な方法を提供します。

要約(オリジナル)

Two recent developments have accelerated progress in image reconstruction from human brain activity: large datasets that offer samples of brain activity in response to many thousands of natural scenes, and the open-sourcing of powerful stochastic image-generators that accept both low- and high-level guidance. Most work in this space has focused on obtaining point estimates of the target image, with the ultimate goal of approximating literal pixel-wise reconstructions of target images from the brain activity patterns they evoke. This emphasis belies the fact that there is always a family of images that are equally compatible with any evoked brain activity pattern, and the fact that many image-generators are inherently stochastic and do not by themselves offer a method for selecting the single best reconstruction from among the samples they generate. We introduce a novel reconstruction procedure (Second Sight) that iteratively refines an image distribution to explicitly maximize the alignment between the predictions of a voxel-wise encoding model and the brain activity patterns evoked by any target image. We show that our process converges on a distribution of high-quality reconstructions by refining both semantic content and low-level image details across iterations. Images sampled from these converged image distributions are competitive with state-of-the-art reconstruction algorithms. Interestingly, the time-to-convergence varies systematically across visual cortex, with earlier visual areas generally taking longer and converging on narrower image distributions, relative to higher-level brain areas. Second Sight thus offers a succinct and novel method for exploring the diversity of representations across visual brain areas.

arxiv情報

著者 Reese Kneeland,Jordyn Ojeda,Ghislain St-Yves,Thomas Naselaris
発行日 2023-06-01 17:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC パーマリンク