要約
この論文では、思考をテキストに変換することなく、脳波 (EEG) 信号から高品質の画像を直接生成する新しい方法である DreamDiffusion を紹介します。
DreamDiffusion は、事前トレーニングされたテキストから画像へのモデルを活用し、時間マスクされた信号モデリングを採用して、効果的かつ堅牢な EEG 表現のために EEG エンコーダーを事前トレーニングします。
さらに、この方法は CLIP 画像エンコーダをさらに利用して、EEG、テキスト、および画像の埋め込みを限られた EEG 画像のペアとより適切に調整するための特別な監視を提供します。
全体として、提案された方法は、ノイズ、限られた情報、個人差など、画像生成に EEG 信号を使用する際の課題を克服し、有望な結果を達成します。
定量的および定性的な結果は、神経科学とコンピュータビジョンへの応用の可能性を備えた、ポータブルで低コストの「思考から画像への変換」に向けた重要な一歩として、提案された方法の有効性を示しています。
コードは \url{https://github.com/bbaaii/DreamDiffusion} から入手できます。
要約(オリジナル)
This paper introduces DreamDiffusion, a novel method for generating high-quality images directly from brain electroencephalogram (EEG) signals, without the need to translate thoughts into text. DreamDiffusion leverages pre-trained text-to-image models and employs temporal masked signal modeling to pre-train the EEG encoder for effective and robust EEG representations. Additionally, the method further leverages the CLIP image encoder to provide extra supervision to better align EEG, text, and image embeddings with limited EEG-image pairs. Overall, the proposed method overcomes the challenges of using EEG signals for image generation, such as noise, limited information, and individual differences, and achieves promising results. Quantitative and qualitative results demonstrate the effectiveness of the proposed method as a significant step towards portable and low-cost “thoughts-to-image”, with potential applications in neuroscience and computer vision. The code is available here \url{https://github.com/bbaaii/DreamDiffusion}.
arxiv情報
著者 | Yunpeng Bai,Xintao Wang,Yan-pei Cao,Yixiao Ge,Chun Yuan,Ying Shan |
発行日 | 2023-06-30 10:46:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google