Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

要約

ECoGを用いた侵襲的なブレイン・コンピュータ・インターフェイスは、医療アプリケーションにおける高性能な音声デコーディングに有望であるが、頭蓋内立体脳波(sEEG)のようなダメージの少ない方法は、まだ十分に研究されていない。表現学習の急速な進歩に伴い、豊富な記録を活用して音声デコーディングを強化することは、ますます魅力的になっている。しかし、一般的な手法では、脳レベルのトークンに基づいて時間モデルを事前学習することが多く、タスク中に異なる領域の脳活動が非常に非同期であることを見落としている。あるいは、チャネルレベルのトークンに基づいて空間-時間モデルを事前学習させるが、特定の言語関連領域での複雑な処理を必要とする音声解読のような困難なタスクでは評価できない。この問題を解決するために、我々は12人の被験者から言語関連脳ネットワークを対象とした、十分に注釈された中国語の単語読解脳波データセットを収集した。このベンチマークを用いて、離散コーデックスガイド付きマスクモデリングにより、領域レベルのトークンに基づく文脈埋め込みを抽出するDu-INモデルを開発した。我々のモデルは、61単語の分類タスクにおいて、全てのベースラインを上回る最先端の性能を達成した。モデルの比較とアブレーション研究により、(i)腹側感覚運動皮質(vSMC)と上側頭回(STG)のチャンネルを融合するために1次元深度方向の畳み込みを利用することによる、領域レベルのトークンに基づく時間的モデリング、(ii)離散的コーデックスガイド付きマスクモデリングによる自己教師が、この性能に大きく寄与していることが明らかになった。全体として、神経科学の知見に触発され、特定の脳領域からの領域レベルの表現を活用する我々のアプローチは、侵襲的な脳モデリングに適しており、ブレインコンピュータインターフェースにおける有望な神経触発AIアプローチを示している。

要約(オリジナル)

Invasive brain-computer interfaces with Electrocorticography (ECoG) have shown promise for high-performance speech decoding in medical applications, but less damaging methods like intracranial stereo-electroencephalography (sEEG) remain underexplored. With rapid advances in representation learning, leveraging abundant recordings to enhance speech decoding is increasingly attractive. However, popular methods often pre-train temporal models based on brain-level tokens, overlooking that brain activities in different regions are highly desynchronized during tasks. Alternatively, they pre-train spatial-temporal models based on channel-level tokens but fail to evaluate them on challenging tasks like speech decoding, which requires intricate processing in specific language-related areas. To address this issue, we collected a well-annotated Chinese word-reading sEEG dataset targeting language-related brain networks from 12 subjects. Using this benchmark, we developed the Du-IN model, which extracts contextual embeddings based on region-level tokens through discrete codex-guided mask modeling. Our model achieves state-of-the-art performance on the 61-word classification task, surpassing all baselines. Model comparisons and ablation studies reveal that our design choices, including (i) temporal modeling based on region-level tokens by utilizing 1D depthwise convolution to fuse channels in the ventral sensorimotor cortex (vSMC) and superior temporal gyrus (STG) and (ii) self-supervision through discrete codex-guided mask modeling, significantly contribute to this performance. Overall, our approach — inspired by neuroscience findings and capitalizing on region-level representations from specific brain regions — is suitable for invasive brain modeling and represents a promising neuro-inspired AI approach in brain-computer interfaces.

arxiv情報

著者 Hui Zheng,Hai-Teng Wang,Wei-Bang Jiang,Zhong-Tao Chen,Li He,Pei-Yang Lin,Peng-Hu Wei,Guo-Guang Zhao,Yun-Zhe Liu
発行日 2024-11-01 09:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, eess.SP, q-bio.NC パーマリンク