Brain-Conditional Multimodal Synthesis: A Survey and Taxonomy

要約

人工知能が生成するコンテンツ(AIGC)の時代において、条件付きマルチモーダル合成技術(テキストから画像、テキストから動画、テキストから音声など)は、現実世界における自然なコンテンツを徐々に再構築しつつある。マルチモーダル合成技術の鍵は、異なるモダリティ間のマッピング関係を確立することである。脳信号は、脳が外部情報をどのように解釈するかの潜在的な反映として機能し、様々な外部モダリティと特徴的な一対多の対応関係を示す。この対応関係により、脳信号はマルチモーダルコンテンツ合成のための有望なガイド条件として浮上する。ブライアン条件によるマルチモーダル合成とは、脳信号を知覚経験へとデコードすることであり、実用的なブレイン・コンピュータ・インターフェイス・システムを開発し、脳が外部刺激をどのように知覚・理解するのかの根底にある複雑なメカニズムを解明する上で極めて重要である。本調査では、AIGC-Brainと呼ばれるAIGCに基づく脳条件マルチモーダル合成の新分野を包括的に調査し、現在の状況と将来の方向性を明らかにする。はじめに、AIGC-Brainのデコーディングと解析の基礎として、関連する脳神経画像データセット、脳機能領域、および主流の生成モデルを紹介する。次に、AIGC-Brainデコードモデルの包括的な分類法を提供し、比較と詳細な分析を容易にするために、タスク固有の代表的な研究と詳細な実装戦略を提示する。次に、質的・量的評価のための品質評価を紹介する。最後に、AIGC-Brainの現在の課題を提示し、展望を概説する。この領域における最初の調査である本論文は、AIGC-Brain研究の進展に道を開き、今後の研究の指針となる基礎的な概要を提供するものである。

要約(オリジナル)

In the era of Artificial Intelligence Generated Content (AIGC), conditional multimodal synthesis technologies (e.g., text-to-image, text-to-video, text-to-audio, etc) are gradually reshaping the natural content in the real world. The key to multimodal synthesis technology is to establish the mapping relationship between different modalities. Brain signals, serving as potential reflections of how the brain interprets external information, exhibit a distinctive One-to-Many correspondence with various external modalities. This correspondence makes brain signals emerge as a promising guiding condition for multimodal content synthesis. Brian-conditional multimodal synthesis refers to decoding brain signals back to perceptual experience, which is crucial for developing practical brain-computer interface systems and unraveling complex mechanisms underlying how the brain perceives and comprehends external stimuli. This survey comprehensively examines the emerging field of AIGC-based Brain-conditional Multimodal Synthesis, termed AIGC-Brain, to delineate the current landscape and future directions. To begin, related brain neuroimaging datasets, functional brain regions, and mainstream generative models are introduced as the foundation of AIGC-Brain decoding and analysis. Next, we provide a comprehensive taxonomy for AIGC-Brain decoding models and present task-specific representative work and detailed implementation strategies to facilitate comparison and in-depth analysis. Quality assessments are then introduced for both qualitative and quantitative evaluation. Finally, this survey explores insights gained, providing current challenges and outlining prospects of AIGC-Brain. Being the inaugural survey in this domain, this paper paves the way for the progress of AIGC-Brain research, offering a foundational overview to guide future work.

arxiv情報

著者 Weijian Mai,Jian Zhang,Pengfei Fang,Zhijun Zhang
発行日 2024-01-03 08:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI パーマリンク