NeuSpeech: Decode Neural signal as Speech

要約

脳のダイナミクスから言語を解読することは、ブレイン・コンピュータ・インターフェイス(BCI)の領域において、特に大規模な言語モデルの急速な成長を考慮すると、重要な未解決の方向性である。電極植え込み手術を必要とする侵襲的な信号と比較して、非侵襲的な神経信号(EEG、MEGなど)は、その安全性と一般性を考慮して、ますます注目を集めている。しかし、その探索は3つの点で十分ではない:1)先行研究は主にEEGに焦点を当てているが、より良い信号品質を持つMEGでこの問題に取り組んだ先行研究はない、2)先行研究は主に生成デコーディング中に$`teacher-forcing’$を使用しているが、これは非現実的である、3)先行研究は主に$`BART-based’$であり、完全な自動回帰ではない。本論文では、音声復号形成におけるMEG信号の脳からテキストへの変換を探求する。ここでは、教師による強制なしにMEG信号から直接テキストを生成するための、交差注意に基づく“囁き”モデルを初めて研究する。我々のモデルは、2つの主要なデータセット($textit{GWilliams}$と$textit{Schoffelen}$)において、$textit{GWilliams}$と$textit{Schoffelen}$の教師強制の事前学習なしに、60.30と52.89の印象的なBLEU-1スコアを達成した。本論文は、音声復号化形成がニューラル復号化タスクでどのように実行されるかを理解するために、プレトレーニング初期化、トレーニング$&$評価セット分割、オーグメンテーション、スケーリング則を含む包括的なレビューを行う。コードは https://github.com/NeuSpeech/NeuSpeech1$ にある。

要約(オリジナル)

Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used $“teacher-forcing’$ during generative decoding, which is impractical; 3) prior works are mostly $“BART-based’$ not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based “whisper’ model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining $\&$ teacher-forcing on two major datasets ($\textit{GWilliams}$ and $\textit{Schoffelen}$). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training $\&$ evaluation set splitting, augmentation, and scaling law. Code is available at https://github.com/NeuSpeech/NeuSpeech1$.

arxiv情報

著者 Yiqian Yang,Yiqun Duan,Qiang Zhang,Hyejeong Jo,Jinni Zhou,Won Hee Lee,Renjing Xu,Hui Xiong
発行日 2024-06-03 16:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク