Toward a realistic model of speech processing in the brain with self-supervised learning

要約

いくつかのディープ ニューラル ネットワークが、同じ入力に応答して脳と同様の活性化を生成することが最近示されました。
ただし、これらのアルゴリズムはほとんど信じられないままです。(1) 異常に大量のデータ、(2) 監視されたラベルを取得できない、(3) 生の感覚入力ではなくテキスト、および/または (4) 信じられないほど大きなメモリ (たとえば、数千の
文脈上の言葉)。
これらの要素は、これらの制限の下で、行動と脳の両方の反応を説明するのに十分なアルゴリズムを特定する必要性を強調しています。
音声処理の問題に焦点を当てて、ここでは、生の波形でトレーニングされた自己教師ありアルゴリズムが有望な候補を構成するという仮説を立てます。
具体的には、最近の自己監視型アーキテクチャである Wav2Vec 2.0 を、機能的磁気共鳴画像法 (fMRI) で記録された 412 人の英語、フランス語、北京語の個人の脳活動と比較し、約 1 時間のオーディオ ブックを聴いています。
私たちの結果は4倍です。
まず、このアルゴリズムがわずか 600 時間のラベルのない発話で脳のような表現を学習することを示します。これは、幼児が言語習得中にさらされる量に匹敵します。
第二に、その機能階層は音声処理の皮質階層と一致します。
第 3 に、さまざまなトレーニング レジームによって、大脳皮質に似た機能的な専門化が明らかになります。Wav2Vec 2.0 は、前頭前皮質および側頭葉皮質と同様の一般的な音、発話固有、​​および言語固有の表現を学習します。
第 4 に、この専門化と 386 人の追加参加者の行動との類似性を確認します。
これまでで最大の神経画像ベンチマークから得られたこれらの要素は、自己教師あり学習が脳内の音声処理の豊富な組織をどのように説明できるかを示し、人間の脳を形成する言語獲得の法則を特定する道を示しています。

要約(オリジナル)

Several deep neural networks have recently been shown to generate activations similar to those of the brain in response to the same input. These algorithms, however, remain largely implausible: they require (1) extraordinarily large amounts of data, (2) unobtainable supervised labels, (3) textual rather than raw sensory input, and / or (4) implausibly large memory (e.g. thousands of contextual words). These elements highlight the need to identify algorithms that, under these limitations, would suffice to account for both behavioral and brain responses. Focusing on the issue of speech processing, we here hypothesize that self-supervised algorithms trained on the raw waveform constitute a promising candidate. Specifically, we compare a recent self-supervised architecture, Wav2Vec 2.0, to the brain activity of 412 English, French, and Mandarin individuals recorded with functional Magnetic Resonance Imaging (fMRI), while they listened to ~1h of audio books. Our results are four-fold. First, we show that this algorithm learns brain-like representations with as little as 600 hours of unlabelled speech — a quantity comparable to what infants can be exposed to during language acquisition. Second, its functional hierarchy aligns with the cortical hierarchy of speech processing. Third, different training regimes reveal a functional specialization akin to the cortex: Wav2Vec 2.0 learns sound-generic, speech-specific and language-specific representations similar to those of the prefrontal and temporal cortices. Fourth, we confirm the similarity of this specialization with the behavior of 386 additional participants. These elements, resulting from the largest neuroimaging benchmark to date, show how self-supervised learning can account for a rich organization of speech processing in the brain, and thus delineate a path to identify the laws of language acquisition which shape the human brain.

arxiv情報

著者 Juliette Millet,Charlotte Caucheteux,Pierre Orhan,Yves Boubenec,Alexandre Gramfort,Ewan Dunbar,Christophe Pallier,Jean-Remi King
発行日 2023-03-20 10:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC パーマリンク