要約
音声言語モデルは、自然言語に対する人間の脳の反応と印象的な程度まで整合しています。
ただし、現在のモデルは、低レベルの音声機能に大きく依存しており、脳内のセマンティック処理のモデル生物としての有用性を制限する脳関連のセマンティクスがないことを示しています。
この作業では、自然な物語を聞いている人々のfMRI録音を微調整することにより、脳に関連するバイアスをモデルに直接誘導することにより、この制限に対処します。
3つの異なる前提条件のモデルファミリでテストした後、脳の調整により、セマンティック言語領域での新しい脳記録との全体的な整合性が向上するだけでなく、このアライメントの低レベルの音声機能への依存も減少することが示されます。
エキサイティングなことに、脳調整が1)さまざまなダウンストリームタスクのパフォーマンスの一貫した改善と2)セマンティックの好みの増加を伴う表現空間につながることをさらに示します。
私たちの結果は、脳シグナルを言語モデルのトレーニングに組み込むことでモデルの意味理解が向上するという収束する証拠を初めて提供します。
要約(オリジナル)
Speech language models align with human brain responses to natural language to an impressive degree. However, current models rely heavily on low-level speech features, indicating they lack brain-relevant semantics which limits their utility as model organisms of semantic processing in the brain. In this work, we address this limitation by inducing brain-relevant bias directly into the models via fine-tuning with fMRI recordings of people listening to natural stories, a process we name brain-tuning. After testing it on 3 different pretrained model families, we show that brain-tuning not only improves overall alignment with new brain recordings in semantic language regions, but also reduces the reliance on low-level speech features for this alignment. Excitingly, we further show that brain-tuning leads to 1) consistent improvements in performance on a range of downstream tasks and 2) a representational space with increased semantic preference. Our results provide converging evidence, for the first time, that incorporating brain signals into the training of language models improves the models’ semantic understanding.
arxiv情報
著者 | Omer Moussa,Dietrich Klakow,Mariya Toneva |
発行日 | 2025-03-04 15:26:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google