Scaling laws for language encoding models in fMRI

要約

トランスフォーマーベースの一方向言語モデルからの表現は、自然言語に対する脳の反応を予測するのに効果的であることが知られています。
ただし、言語モデルを脳と比較するほとんどの研究では、GPT-2 または同様のサイズの言語モデルが使用されています。
ここでは、OPT や LLaMA ファミリーのような大規模なオープンソース モデルの方が、fMRI を使用して記録された脳反応の予測に優れているかどうかをテストしました。
他のコンテキストからのスケーリング結果を反映すると、脳予測パフォーマンスは 125M から 30B パラメーター モデルのモデル サイズに応じて対数線形にスケールし、3 人の被験者にわたるホールドアウト テスト セットとの相関によって測定されるエンコード パフォーマンスが約 15% 向上することがわかりました。
fMRI トレーニング セットのサイズをスケーリングするときにも、同様の対数線形の動作が観察されました。
また、HuBERT、WavLM、および Whisper を使用する音響エンコード モデルのスケーリングも特徴づけたところ、モデル サイズに匹敵する改善が見られました。
これらの大規模で高性能のエンコーディング モデルのノイズ シーリング分析により、楔前部や高次聴覚皮質などの脳領域のパフォーマンスが理論上の最大値に近づいていることがわかりました。
これらの結果は、モデルとデータの両方の規模を拡大することで、脳内の言語処理の非常に効果的なモデルが生成され、より優れた科学的理解と解読などの応用が可能になることを示唆しています。

要約(オリジナル)

Representations from transformer-based unidirectional language models are known to be effective at predicting brain responses to natural language. However, most studies comparing language models to brains have used GPT-2 or similarly sized language models. Here we tested whether larger open-source models such as those from the OPT and LLaMA families are better at predicting brain responses recorded using fMRI. Mirroring scaling results from other contexts, we found that brain prediction performance scales log-linearly with model size from 125M to 30B parameter models, with ~15% increased encoding performance as measured by correlation with a held-out test set across 3 subjects. Similar log-linear behavior was observed when scaling the size of the fMRI training set. We also characterized scaling for acoustic encoding models that use HuBERT, WavLM, and Whisper, and we found comparable improvements with model size. A noise ceiling analysis of these large, high-performance encoding models showed that performance is nearing the theoretical maximum for brain areas such as the precuneus and higher auditory cortex. These results suggest that increasing scale in both models and data will yield incredibly effective models of language processing in the brain, enabling better scientific understanding as well as applications such as decoding.

arxiv情報

著者 Richard Antonello,Aditya Vaidya,Alexander G. Huth
発行日 2023-05-22 08:05:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク