Do self-supervised speech and language models extract similar representations as human brain?

要約

自己教師あり学習 (SSL) を通じてトレーニングされた音声および言語モデルは、音声および言語の知覚中の脳活動との強い一致を示します。
しかし、それらの異なるトレーニング方法を考えると、それらが同じ神経面と相関しているかどうかは不明のままです。
私たちは、音声および言語タスク用に設計された 2 つの代表的な SSL モデル、Wav2Vec2.0 および GPT-2 の脳予測パフォーマンスを評価することで、この疑問に直接取り組みます。
私たちの調査結果は、両方のモデルが聴覚皮質の音声反応を正確に予測し、脳の予測間に有意な相関があることを明らかにしました。
特に、Wav2Vec2.0 と GPT-2 の間で共有される音声コンテキスト情報は、静的な意味情報や低レベルの音響音声情報を上回り、説明される脳活動の差異の大部分を占めています。
これらの結果は、SSL モデルにおける音声文脈表現の収束と、音声認識の基礎となるニューラル ネットワークとの整合性を強調し、SSL モデルと音声および言語処理の神経基盤の両方について貴重な洞察を提供します。

要約(オリジナル)

Speech and language models trained through self-supervised learning (SSL) demonstrate strong alignment with brain activity during speech and language perception. However, given their distinct training modalities, it remains unclear whether they correlate with the same neural aspects. We directly address this question by evaluating the brain prediction performance of two representative SSL models, Wav2Vec2.0 and GPT-2, designed for speech and language tasks. Our findings reveal that both models accurately predict speech responses in the auditory cortex, with a significant correlation between their brain predictions. Notably, shared speech contextual information between Wav2Vec2.0 and GPT-2 accounts for the majority of explained variance in brain activity, surpassing static semantic and lower-level acoustic-phonetic information. These results underscore the convergence of speech contextual representations in SSL models and their alignment with the neural network underlying speech perception, offering valuable insights into both SSL models and the neural basis of speech and language processing.

arxiv情報

著者 Peili Chen,Linyang He,Li Fu,Lu Fan,Edward F. Chang,Yuanning Li
発行日 2024-01-31 09:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS, q-bio.NC パーマリンク