要約
音声言語モデルは、自然言語に対する人間の脳の反応と驚くほど一致しています。
しかし、現在のモデルは低レベルの音声特徴に大きく依存しており、脳に関連した意味論が欠如しているため、脳内の意味論的処理のモデル生物としての有用性が制限されていることを示しています。
この研究では、自然の物語を聞いている人々の fMRI 記録を微調整することで、脳に関連するバイアスをモデルに直接導入することでこの制限に対処します。このプロセスをブレインチューニングと名付けます。
3つの異なる事前訓練済みモデルファミリーでテストした結果、脳チューニングは意味論的言語領域における新しい脳記録との全体的な整合性を改善するだけでなく、この整合性における低レベルの音声特徴への依存も軽減することを示しました。
興味深いことに、我々はさらに、脳のチューニングが 1) さまざまな下流タスクのパフォーマンスの一貫した改善、2) 意味論的優先度の増加を伴う表現空間につながることを示しました。
私たちの結果は、言語モデルのトレーニングに脳信号を組み込むことでモデルの意味理解が向上するという、まとまった証拠を初めて提供します。
要約(オリジナル)
Speech language models align with human brain responses to natural language to an impressive degree. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics which limits their utility as model organisms of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias directly into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we name brain-tuning. After testing it on 3 different pretrained model families, we show that brain-tuning not only improves overall alignment with new brain recordings in semantic language regions, but also reduces the reliance on low-level speech features for this alignment. Excitingly, we further show that brain-tuning leads to 1) consistent improvements in performance on a range of downstream tasks and 2) a representational space with increased semantic preference. Our results provide converging evidence, for the first time, that incorporating brain signals into the training of language models improves the models’ semantic understanding.
arxiv情報
著者 | Omer Moussa,Dietrich Klakow,Mariya Toneva |
発行日 | 2024-10-15 16:39:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google