要約
脳の活動からの思考を解読することは、人間の認知に関する貴重な洞察を提供し、脳コンピューターの相互作用における有望なアプリケーションを可能にします。
以前の研究では、fMRIデータからの言語再構成を調査していますが、通常、画像やオーディオなどの単一モダリティ入力に限定されています。
対照的に、人間の思考は本質的にマルチモーダルです。
このギャップを埋めるために、私たちは、多様な入力モダリティ、視聴者、聴覚、およびテキストによって誘発される脳記録からコヒーレント言語を再構築するための統一された柔軟なフレームワークを提案します。
私たちのアプローチは、視覚言語モデル(VLM)を活用して、モダリティ固有の専門家を使用して、モダリティ全体で情報を共同で解釈します。
実験は、私たちの方法が最先端のシステムに匹敵するパフォーマンスを達成しながら、適応性と拡張可能なままであることを示しています。
この作業は、より生態学的に有効で一般化可能なマインドデコードに向けて進みます。
要約(オリジナル)
Decoding thoughts from brain activity offers valuable insights into human cognition and enables promising applications in brain-computer interaction. While prior studies have explored language reconstruction from fMRI data, they are typically limited to single-modality inputs such as images or audio. In contrast, human thought is inherently multimodal. To bridge this gap, we propose a unified and flexible framework for reconstructing coherent language from brain recordings elicited by diverse input modalities-visual, auditory, and textual. Our approach leverages visual-language models (VLMs), using modality-specific experts to jointly interpret information across modalities. Experiments demonstrate that our method achieves performance comparable to state-of-the-art systems while remaining adaptable and extensible. This work advances toward more ecologically valid and generalizable mind decoding.
arxiv情報
著者 | Chunyu Ye,Shaonan Wang |
発行日 | 2025-05-15 14:46:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google