Controllable Mind Visual Diffusion Model

要約

脳信号の視覚化は、人間の視覚システムとコンピュータ ビジョン モデルの間の重要なインターフェイスとして機能する、活発な研究分野として浮上しています。
拡散モデルは、元の視覚刺激と一致する高品質画像の再構成など、機能的磁気共鳴画像法 (fMRI) データの分析において有望であることが示されていますが、脳信号から意味情報やシルエット情報を抽出する精度は依然として限られています。
これに関して、我々は、Controllable Mind Visual Diffusion Model (CMVDM) と呼ばれる新しいアプローチを提案します。
CMVDM は、属性アラインメントとアシスタント ネットワークを使用して、fMRI データからセマンティック情報とシルエット情報を抽出します。
さらに、セマンティック機能やシルエット機能を超えた情報を取得するために、残差ブロックが組み込まれています。
次に、制御モデルを活用して抽出した情報を画像合成に最大限に活用し、その結果、セマンティクスとシルエットの点で視覚刺激によく似た画像が生成されます。
広範な実験を通じて、CMVDM が既存の最先端の方法よりも定性的および定量的に優れていることを実証しました。

要約(オリジナル)

Brain signal visualization has emerged as an active research area, serving as a critical interface between the human visual system and computer vision models. Although diffusion models have shown promise in analyzing functional magnetic resonance imaging (fMRI) data, including reconstructing high-quality images consistent with original visual stimuli, their accuracy in extracting semantic and silhouette information from brain signals remains limited. In this regard, we propose a novel approach, referred to as Controllable Mind Visual Diffusion Model (CMVDM). CMVDM extracts semantic and silhouette information from fMRI data using attribute alignment and assistant networks. Additionally, a residual block is incorporated to capture information beyond semantic and silhouette features. We then leverage a control model to fully exploit the extracted information for image synthesis, resulting in generated images that closely resemble the visual stimuli in terms of semantics and silhouette. Through extensive experimentation, we demonstrate that CMVDM outperforms existing state-of-the-art methods both qualitatively and quantitatively.

arxiv情報

著者 Bohan Zeng,Shanglin Li,Xuhui Liu,Sicheng Gao,Xiaolong Jiang,Xu Tang,Yao Hu,Jianzhuang Liu,Baochang Zhang
発行日 2023-05-17 11:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク