Contextual Feature Extraction Hierarchies Converge in Large Language Models and the Brain

要約

人工知能の最近の進歩により、大規模言語モデル (LLM) と人間の神経処理、特に言語理解の類似点に対する関心が高まっています。
これまでの研究により、LLM と脳の表現における類似性が確立されていますが、特に進化する LLM の状況において、この収束を引き起こす根本的な計算原理は依然としてとらえどころのないままです。
ここでは、脳の言語処理メカニズムとの整合に寄与する要因を調査するために、同様のパラメーター サイズを持つさまざまな高性能 LLM を調べました。
LLM がベンチマーク タスクでより高いパフォーマンスを達成するにつれて、LLM 埋め込みからの神経応答を予測する際のパフォーマンスの向上によって測定されるように、LLM はより脳に似たものになるだけでなく、使用する層が少なくなりながら、その階層的特徴抽出経路が脳の経路により密接にマッピングされることがわかりました。
同じエンコーディングを実行します。
また、LLM の特徴抽出経路を相互に比較し、高性能モデルが同様の階層処理メカニズムに収束する新しい方法を特定します。
最後に、モデルのパフォーマンスと脳の類似性を向上させる上でのコンテキスト情報の重要性を示します。
私たちの発見は、脳とLLMにおける言語処理の収束する側面を明らかにし、人間の認知処理とより密接に連携するモデルを開発するための新しい方向性を提供します。

要約(オリジナル)

Recent advancements in artificial intelligence have sparked interest in the parallels between large language models (LLMs) and human neural processing, particularly in language comprehension. While prior research has established similarities in the representation of LLMs and the brain, the underlying computational principles that cause this convergence, especially in the context of evolving LLMs, remain elusive. Here, we examined a diverse selection of high-performance LLMs with similar parameter sizes to investigate the factors contributing to their alignment with the brain’s language processing mechanisms. We find that as LLMs achieve higher performance on benchmark tasks, they not only become more brain-like as measured by higher performance when predicting neural responses from LLM embeddings, but also their hierarchical feature extraction pathways map more closely onto the brain’s while using fewer layers to do the same encoding. We also compare the feature extraction pathways of the LLMs to each other and identify new ways in which high-performing models have converged toward similar hierarchical processing mechanisms. Finally, we show the importance of contextual information in improving model performance and brain similarity. Our findings reveal the converging aspects of language processing in the brain and LLMs and offer new directions for developing models that align more closely with human cognitive processing.

arxiv情報

著者 Gavin Mischler,Yinghao Aaron Li,Stephan Bickel,Ashesh D. Mehta,Nima Mesgarani
発行日 2024-01-31 08:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC パーマリンク