Decode Neural signal as Speech

要約

脳のダイナミクスから言語を解読することは、特に大規模な言語モデルの急速な成長を考慮すると、ブレイン コンピューター インターフェイス (BCI) の領域における重要なオープンな方向性です。
電極埋め込み手術を必要とする侵襲性信号と比較して、非侵襲性神経信号 (EEG、MEG など) は、その安全性と汎用性を考慮してますます注目を集めています。
しかし、この調査は次の 3 つの側面で十分ではありません。1) 従来の方法は主に EEG に焦点を当てていましたが、より良い信号品質で MEG に関するこの問題に対処した以前の研究はありません。
2) 以前の研究では、生成復号化中に主に「教師強制」が使用されていましたが、これは非現実的です。
3) 以前の作業はほとんどが「BART ベース」であり、完全な自動回帰ではなく、他のシーケンス タスクでより優れたパフォーマンスを発揮します。
この論文では、音声デコーディング形式での MEG 信号の脳からテキストへの変換を検討します。
ここで我々は、教師の強制なしに MEG 信号から直接テキストを生成するクロスアテンションベースの「ささやき」モデルを初めて調査しました。
私たちのモデルは、2 つの主要なデータセット (\textit{GWilliams} と \textit{Schoffelen}) に対する事前トレーニングや教師強制を行わずに、60.30 と 52.89 という優れた BLEU-1 スコアを達成しました。
この論文では、トレーニング前の初期化、トレーニングと評価セットの分割、拡張、スケーリング則など、ニューラル デコーディング タスクで音声デコーディング形成がどのように実行されるかを理解するために包括的なレビューを実施します。

要約(オリジナル)

Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used “teacher-forcing’ during generative decoding, which is impractical; 3) prior works are mostly “BART-based’ not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based “whisper’ model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining \& teacher-forcing on two major datasets (\textit{GWilliams} and \textit{Schoffelen}). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training \& evaluation set splitting, augmentation, and scaling law.

arxiv情報

著者 Yiqian Yang,Yiqun Duan,Qiang Zhang,Renjing Xu,Hui Xiong
発行日 2024-03-26 15:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク