Decoding speech perception from non-invasive brain recordings

要約

脳活動から音声を解読することは、医療と神経科学の両方において待望の目標です。
最近、侵襲的デバイスはこの点で大きなマイルストーンをもたらしました。頭蓋内記録で訓練された深層学習アルゴリズムが、基本的な言語特徴 (文字、単語、スペクトログラムなど) を解読し始めています。
ただし、このアプローチを自然な音声や非侵襲的な脳記録に拡張することは、依然として大きな課題です。
ここでは、健康な人の大規模なコホートの非侵襲的録音から知覚された音声の自己教師あり表現を解読するために、対照学習でトレーニングされたモデルを紹介します。
このアプローチを評価するために、私たちは 4 つの公開データセットを厳選して統合しました。このデータセットには、短い物語や個別の文章を聞いている間に脳磁図または脳電図 (M/EEG) で記録された 175 人のボランティアが含まれます。
結果は、私たちのモデルが、3 秒間の MEG 信号から、参加者全体で平均 1,000 以上の個別の可能性の中から最大 41% の精度で対応する音声セグメントを識別でき、最も優秀な参加者では 80% 以上の精度で対応する音声セグメントを識別できることを示しています。
トレーニングセットに含まれていない単語やフレーズの解読を可能にするパフォーマンス。
私たちのモデルをさまざまなベースラインと比較すると、(i) 対照的な目的、(ii) 事前トレーニングされた音声表現、および (iii) 複数の参加者間で同時にトレーニングされた共通の畳み込みアーキテクチャの重要性が強調されます。
最後に、デコーダの予測の分析は、デコーダが主に語彙的および文脈上の意味表現に依存していることを示唆しています。
全体として、非侵襲的録音から知覚された音声を効果的に解読するこの方法は、患者を脳手術の危険にさらすことなく、脳活動から言語を解読するための有望な道筋を描きます。

要約(オリジナル)

Decoding speech from brain activity is a long-awaited goal in both healthcare and neuroscience. Invasive devices have recently led to major milestones in that regard: deep learning algorithms trained on intracranial recordings now start to decode elementary linguistic features (e.g. letters, words, spectrograms). However, extending this approach to natural speech and non-invasive brain recordings remains a major challenge. Here, we introduce a model trained with contrastive-learning to decode self-supervised representations of perceived speech from the non-invasive recordings of a large cohort of healthy individuals. To evaluate this approach, we curate and integrate four public datasets, encompassing 175 volunteers recorded with magneto- or electro-encephalography (M/EEG), while they listened to short stories and isolated sentences. The results show that our model can identify, from 3 seconds of MEG signals, the corresponding speech segment with up to 41% accuracy out of more than 1,000 distinct possibilities on average across participants, and more than 80% in the very best participants – a performance that allows the decoding of words and phrases absent from the training set. The comparison of our model to a variety of baselines highlights the importance of (i) a contrastive objective, (ii) pretrained representations of speech and (iii) a common convolutional architecture simultaneously trained across multiple participants. Finally, the analysis of the decoder’s predictions suggests that they primarily depend on lexical and contextual semantic representations. Overall, this effective decoding of perceived speech from non-invasive recordings delineates a promising path to decode language from brain activity, without putting patients at risk for brain surgery.

arxiv情報

著者 Alexandre Défossez,Charlotte Caucheteux,Jérémy Rapin,Ori Kabeli,Jean-Rémi King
発行日 2023-10-05 15:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.AS, q-bio.NC パーマリンク