Du-IN: Discrete units-guided mask modeling for decoding speech from Intracranial Neural signals

要約

皮質電図検査 (ECoG) を備えた侵襲的な脳とコンピューターのインターフェイスは、医療用途における高性能音声デコードに有望であることが示されていますが、頭蓋内ステレオ脳波検査 (sEEG) のような害の少ない方法はまだ研究されていません。
表現学習の急速な進歩により、豊富な録音を活用して音声デコードを強化することがますます魅力的になっています。
しかし、一般的な手法では、脳レベルのトークンに基づいて時間モデルを事前トレーニングすることが多く、タスク中にさまざまな領域の脳活動が高度に非同期化することが見落とされています。
あるいは、チャネルレベルのトークンに基づいて時空間モデルを事前トレーニングしますが、特定の言語関連領域で複雑な処理を必要とする音声デコードなどの困難なタスクではモデルを評価できません。
この問題に対処するために、12 人の被験者から言語関連の脳ネットワークを対象とした、十分に注釈が付けられた中国語単語読み取り sEEG データセットを収集しました。
このベンチマークを使用して、離散コーデックスに基づくマスク モデリングを通じて領域レベルのトークンに基づいてコンテキスト エンベディングを抽出する Du-IN モデルを開発しました。
私たちのモデルは、61 単語の分類タスクで最先端のパフォーマンスを達成し、すべてのベースラインを上回りました。
モデルの比較とアブレーション研究により、(i) 1D 深さ方向畳み込みを利用して外側感覚運動野 (vSMC) と上側頭回 (STG) のチャネルを融合することによる領域レベルのトークンに基づく時間的モデリング、および (ii)
個別のコーデックスに基づくマスク モデリングによる自己監視は、このパフォーマンスに大きく貢献します。
全体として、神経科学の発見に触発され、特定の脳領域からの領域レベルの表現を利用する私たちのアプローチは、侵襲的な脳モデリングに適しており、脳とコンピューターのインターフェイスにおける有望な神経にインスピレーションを受けた AI アプローチを表しています。

要約(オリジナル)

Invasive brain-computer interfaces with Electrocorticography (ECoG) have shown promise for high-performance speech decoding in medical applications, but less damaging methods like intracranial stereo-electroencephalography (sEEG) remain underexplored. With rapid advances in representation learning, leveraging abundant recordings to enhance speech decoding is increasingly attractive. However, popular methods often pre-train temporal models based on brain-level tokens, overlooking that brain activities in different regions are highly desynchronized during tasks. Alternatively, they pre-train spatial-temporal models based on channel-level tokens but fail to evaluate them on challenging tasks like speech decoding, which requires intricate processing in specific language-related areas. To address this issue, we collected a well-annotated Chinese word-reading sEEG dataset targeting language-related brain networks from 12 subjects. Using this benchmark, we developed the Du-IN model, which extracts contextual embeddings based on region-level tokens through discrete codex-guided mask modeling. Our model achieves state-of-the-art performance on the 61-word classification task, surpassing all baselines. Model comparisons and ablation studies reveal that our design choices, including (i) temporal modeling based on region-level tokens by utilizing 1D depthwise convolution to fuse channels in the lateral sensorimotor cortex (vSMC) and superior temporal gyrus (STG) and (ii) self-supervision through discrete codex-guided mask modeling, significantly contribute to this performance. Overall, our approach — inspired by neuroscience findings and capitalizing on region-level representations from specific brain regions — is suitable for invasive brain modeling and represents a promising neuro-inspired AI approach in brain-computer interfaces.

arxiv情報

著者 Hui Zheng,Hai-Teng Wang,Wei-Bang Jiang,Zhong-Tao Chen,Li He,Pei-Yang Lin,Peng-Hu Wei,Guo-Guang Zhao,Yun-Zhe Liu
発行日 2024-10-21 15:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.SP, q-bio.NC パーマリンク