Explanations of Deep Language Models Explain Language Representations in the Brain

要約

人工知能の最近の進歩により、人間のようなパフォーマンスを達成するだけでなく、脳の言語処理メカニズムと計算原理を共有する大規模な言語モデル(LLM)が生まれました。
以前の研究では、主にLLMSの内部表現を神経活動と整列させることに焦点を当てていましたが、2つのドメイン間でより深いつながりを築くために説明可能なAI(XAI)方法を活用する新しいアプローチを導入します。
帰属方法を使用して、先行する単語がLLMの次の単語予測にどのように寄与するかを定量化し、これらの説明を使用して、同じ物語を聞いている参加者からfMRI録音を予測しました。
私たちの調査結果は、帰属方法が言語ネットワーク全体で脳の活動を堅牢に予測し、初期の言語分野の従来の内部表現を上回っていることを示しています。
このアラインメントは階層的です。初期層の説明は、脳の言語処理の初期段階に対応しますが、後の層はより高度な段階に合わせます。
さらに、レイヤーはLLMの次のワード予測$ \ unicode {x2014} $より高い属性スコアを持つ$ \ unicode {x2014} $を備えたもので、神経活動とより強い整合性を示しました。
この作業は、AIと神経科学の間の双方向の橋を確立します。
まず、属性方法は、言語理解の神経メカニズムを調査するための強力なレンズを提供し、前のコンテキストから意味がどのように現れるかを明らかにすることを実証します。
第二に、脳のアライメントをメトリックとして使用して、帰属方法の妥当性を評価し、生物学的妥当性を評価するためのフレームワークを提供することを提案します。

要約(オリジナル)

Recent advances in artificial intelligence have given rise to large language models (LLMs) that not only achieve human-like performance but also share computational principles with the brain’s language processing mechanisms. While previous research has primarily focused on aligning LLMs’ internal representations with neural activity, we introduce a novel approach that leverages explainable AI (XAI) methods to forge deeper connections between the two domains. Using attribution methods, we quantified how preceding words contribute to an LLM’s next-word predictions and employed these explanations to predict fMRI recordings from participants listening to the same narratives. Our findings demonstrate that attribution methods robustly predict brain activity across the language network, surpassing traditional internal representations in early language areas. This alignment is hierarchical: early-layer explanations correspond to the initial stages of language processing in the brain, while later layers align with more advanced stages. Moreover, the layers more influential on LLM next-word prediction$\unicode{x2014}$those with higher attribution scores$\unicode{x2014}$exhibited stronger alignment with neural activity. This work establishes a bidirectional bridge between AI and neuroscience. First, we demonstrate that attribution methods offer a powerful lens for investigating the neural mechanisms of language comprehension, revealing how meaning emerges from preceding context. Second, we propose using brain alignment as a metric to evaluate the validity of attribution methods, providing a framework for assessing their biological plausibility.

arxiv情報

著者 Maryam Rahimi,Yadollah Yaghoobzadeh,Mohammad Reza Daliri
発行日 2025-02-20 16:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC パーマリンク