Improving visual image reconstruction from human brain activity using latent diffusion models via multiple decoded inputs

要約

ディープラーニングと神経科学の統合は急速に進んでおり、これにより脳活動の分析と神経科学の観点からのディープラーニングモデルの理解が向上しました。
人間の脳活動からの視覚体験の再構築は、特に恩恵を受けた分野です。大量の自然画像で訓練された深層学習モデルの使用により、その品質が大幅に向上し、視覚体験に含まれる多様な情報を組み合わせるアプローチが急速に普及しました。
近年では。
この技術論文では、私たちが提案したシンプルで汎用的なフレームワーク (Takagi andNishimoto、CVPR 2023) を利用して、さまざまな追加のデコード技術が視覚体験の再構成のパフォーマンスにどの程度影響するかを検証します。
具体的には、以前の研究を次の 3 つの手法と組み合わせました。脳活動からデコードされたテキストの使用、構造画像再構成のための非線形最適化、脳活動からデコードされた深度情報の使用です。
これらの手法がベースラインを上回る精度の向上に貢献していることを確認しました。
また、大規模なデータセットでトレーニングされた深層生成モデルを使用して視覚的再構成を実行する際に研究者が考慮すべきことについても説明します。
当社のウェブページ https://sites.google.com/view/stablediffusion-with-brain/ をご確認ください。
コードは https://github.com/yu-takagi/StableDiffusionReconstruction からも入手できます。

要約(オリジナル)

The integration of deep learning and neuroscience has been advancing rapidly, which has led to improvements in the analysis of brain activity and the understanding of deep learning models from a neuroscientific perspective. The reconstruction of visual experience from human brain activity is an area that has particularly benefited: the use of deep learning models trained on large amounts of natural images has greatly improved its quality, and approaches that combine the diverse information contained in visual experiences have proliferated rapidly in recent years. In this technical paper, by taking advantage of the simple and generic framework that we proposed (Takagi and Nishimoto, CVPR 2023), we examine the extent to which various additional decoding techniques affect the performance of visual experience reconstruction. Specifically, we combined our earlier work with the following three techniques: using decoded text from brain activity, nonlinear optimization for structural image reconstruction, and using decoded depth information from brain activity. We confirmed that these techniques contributed to improving accuracy over the baseline. We also discuss what researchers should consider when performing visual reconstruction using deep generative models trained on large datasets. Please check our webpage at https://sites.google.com/view/stablediffusion-with-brain/. Code is also available at https://github.com/yu-takagi/StableDiffusionReconstruction.

arxiv情報

著者 Yu Takagi,Shinji Nishimoto
発行日 2023-06-20 13:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, q-bio.NC パーマリンク